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Stand der Technik 



I/) 

O (57) Abstract: llie invention relates to ceU structures which can be ^ 

w specifies how and with which units a sequence is to be partitioned for this purpose and with such cell structures. 



STATE OF THE ART 



(57) Zusammenfossung: Die vorliegende Erfindung befasst sich mit ZeUstrukturen, bei denen eine wechsebde Aflwdnung zuein- 
ander mogiich ist £s wird angegeben, wie und mit weichen Einheiten hierbei und hierfUr eine Sequenz zu partitionieren ist 
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Veroffentiicht: 

— Ohne intemationalen I^chmhenbericht und emeut zu 
verdffenilichen nach Erhglt des Berichts. 



Zur Erkldnmg der Zweibuchsiaben-Codes, und der andmn 
Abkurzungen wird auf die ErklOrmgen COtddanee Notes on 
Codes and Abbreviations") am ArfangJeder regidSren Ausgabe 
der FCT-Gazette yerwiesen. 
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Aufgabe der Erf indung und Anwendungsbereiche 

Die .vorliegende Erfindung erstreckt sich auf ■ das. Gebiet von- 
programmierbaren und. insbesondere wahrend des Betriebes umpro— 
grammierbaren arithmetischen und/oder logischen Bausteinen 
(VPbs) mit Vielzahl von arithmetischen und/oder logischen Ein- 
heiten, deren Verschaltung ebenfalls programmierbar und wah- 
rend des Betriebes umprogrammierbar ist. Derartige logische 
Bausteine sind unter dem Oberbegrif f FPGA von verschiedenen 
Firmen verftigbar. Weiterhin sind mehrere Patente verof fent- 
licht, die spezielle arithmetische B.austeine mit automatischer 
Datensynchronisation und verbesserter arithmetischen Datenver- 
arbeitung offenlegen. 

Samtliche beschriebene Bausteine besitzen eine zwei- oder 
mehrdimensionale Anordnung von logischen und/oder arithmeti- 
schen Einheiten (PAEs), die uber Bussysteme miteinander ver- 
schaltbar sind. 

Kennzeichnend fur die der Erfindung entsprechenden Bausteine 
ist, daB sie entweder die nachfolgend aufgelisteten Einheiten 
besitzen, oder zur erf indungsgemSBen Anwendung diese Einheiten 
programmiert oder (auch extern) hinzugefligt werden: 
1. mindestens eine Einheit (CT) zum Laden der Konf igurations- 

daten. 
2: "PAEs; ' * 

3. mindestens ein Interface (lOAG) zu einem oder mehreren 
Speichern und/oder peripheren Geraten. • 

Aufgabe der Erfindung ist es, ein Programmierverf ahren zur 
Verfugung zu stellen, das es ermoglicht die beschriebenen Bau- 
steine in gewohnlichen Hochsprachen effizient zu programmieren 
und dabei die Vorteile der durch die Vielzahl von Einheiten 
ehtstehende Parallelitat der beschriebenen 
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Bausteihe weitgehehd autbinatisch, vollstahdig uhd effizient zu 
■:nutzenv . / - 

Stand der Technik 

Bausteine der genannten Gattung werden zumeist unter 
Verwendung gewohnlicher Datenf lussprachen programmiert i Dabei 
treten zwei grundlegende Probleme auf: 

1. Die Programmierung in Datehf lussprachen ist fUr 

' Programmierer gewbhniingsbedUrftig/ tief seqiientieile Aufgaben 
lassen sich nur sehr umstSndlich beschreiben. 

2. GroBe Applikationen und sequentielle Beschreibungen lassen 
sich mit den bestehenden Ubersetzungsprogrammen {Synthese- 
Tools) nur bedingt auf die gewUnschte Zieltechnologie abbilden 
(synthetisieren) . 

FUr gewohnlich werden Applikationen in mehrere 
Teilapplikationen partitioniert, die dann einzeln auf die 
Zieltechnologie synthetisiert werden (Fig. 1) . Die einzelnen 
Binarcodes werden dann auf jeweils einen Baustein geladen. 
Wesentliche Voraussetzuhg der Erfindung ist das in DE 44 16 
881 beschriebene Verfahren, das es ermbglicht/ mehrere 
partitipnierte Teilapplikationen innerhalb . eines Bausteines zu 
nutzen, indem die zeitliche Abh^ngigkeit analysiert wird und 
uber Steuersignale sequentiell die jeweils erf orderlichen 
Teilapplikationen bei einer tibergeordneten Ladeeinheit 
angefordert und von dieser daraufhih auf den Baustein geladen 
werden. 

Existierende Synthese-Tools sind nur bedingt in der Lage 
Programm-Schleifen auf Bausteine abzufailden (Fig. 2 0201) • 
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Dabei werden FOR-Schleifen (0202) als Primitiv-Schleife haufig 
noch dadurch. uncersttitzt> dafi. die Schieife vbilkoinmeh auf die ; 
Ressourcen des Zielbausteines ausgewalzt werden. 

WHILE-Schleifen <0203) besitzen im Gegensatz zu FOR-Schleifen 
keinen konstanren Abbruchswert. Vieimehr.wird durch eine 
Bedingung evaluiert, wann der Schleifenabbruch stattfindet. 
Daher ist gewohnlicherweise (wenn die Bedingung nicht konstant 
ist) zur Synthesezeit nicht bekannt/ wann die Schieife 
abbricht. Durch das. ciynamische Verhialt^h kdnhen Synthese-Tbols 
diese Schleifen nicht fest auf Hardware abgebildet d.h. auf 
einen Zielbaustein Ubertragen werden. 

Rekursionen sind mit Synthesewerkzeugen nach dem Stand der 
Technik grundsStzlich nicht auf Hardware abbildbar/ wenn die 
Rekursionstief e nicht zur Synthesezeit bekannt und damit 
konstant ist* Bei der Rekursion werden mit jeder neuen 
Rekursionsebene neue Ressourcen allokiert. Das wUrde bedeuten^ 
dafi mit jeder Rekursionsebene neue Hardware zur Verfiigung 
gestellt werden muJ^, was aber dynamisch nicht mdglich ist. 

Selbst einfache Grundstruktiiren sind von Synthesetools nur 
dann abbildbar, wenn der Zielbaustein ausreichend grofi ist/ 
d.h. ausreichende Ressourcen bietet. 

Einfache zeitiiche Abhangigkeiten (0301) werden durch heutige 
Synthese-Tools nicht in mehrere Teilapplikationen 
partitioniert und sind deshalb nur als Ganzes auf einen 
Zielbaustein ttbertragbar. 

Bedingte Ausftihrungen (0302) und Schleifen Uber Bedingungen 
(0303) sind ebenfalls nur abbildbar, wenn ausreichende 
Ressourcen auf dem Zielbaustein existieren. 

Erf indungsgemafles Verfahren 
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Dutch das in DE 44 16 881 beschriebehe Verfahren ist es 
mbglich Bedingungen zur Laufzeit ..innerhalb der 
Hardwares trukturen der genannten Bausceine zu erkennen und 
derart dynamisch darauf zu reagierenr dafi die Funktion der 
Hardware entsprechend der eingetretenen Bedingung modifiziert 
. wird, was im wesentlichen durch das Konf igurieren einer neuen 
Struktur geschieht. 

Ein wesentlicher Schritt in dem erf indungsgemafien Verfahren . 
ist die .Partitionierung von Grapheh (Applikatibneh) in . 
zeitlich unabhangige Teilgraphen (Teilapplikationen) . 

Der Begriff "zeitliche Unabhangigkeit" wird damit definiert, 
dafi die Daten/ die zwischen zwei Teilapplikationen iibertragen 
werden durch einen Speicher/ gleich welcher Ausgestaltung 
. (also auch mittels einfacher Register), entkoppelt werden. 
Dies ist besonders an den Stellen eines Graphen mbglich/ an 
denen eine klare Schnittstelle mit einer begrenzten und 
mbglichst minizaalen. Menge von Signalen zwischen den beiden 
Teilgraphen besteht. 

Weiterhin sind besonders Stellen im Graphen geeignet, die 
• folgende Merkmale aufweisen: 
. .1. ...ES befinden sichi . wenig Signale pder. Variablen zwischen den 
Knoten. 

2. Es werden wenig Daten tiber die Signale oder Variablen 
iibertragen. 

3. Es gibe keine RUckkopplungen, d.h. keine Signale oder 
Variablen die umgekehrte Richtung zu den Restlichen laufen. 

Die zeitliche Unabhangigkeit kann in grofien Graphen durch das 
gezielte EinfUgen von klar definierten und moglichste 
einfachen Schnittstellen zum Speichern von Daten in einen 
Zwischenspeicher herbeigefuhrt werden (vgl, Sr, in Fig. 4). 
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Schleifeh weisen of tmals eine Starke zeitliche Unabh^nglgkeit 
zum restlicheri Algorithmus auf ^ . dia ;sie larige iZeit. Qber eifier 
bestiramten Menge von (zumeist) in der Schleife lokalen 
Variablen arbeiten und nur beira Schleif eneintritt und beim 
Verlassen der Schleife eine Obertragung der Operanden bzw, des 
Ergebnisses e.rfordern. 

. Durch die zeitliche UnabhSngigkeit wird. erreicht, daa nach der 
vdlistkndigen Aus.ftlhrung. einer Teilappllkation die 
nachf blgende Teiiapplikatibn geladeh werden kann, ohne dafi 
irgendwelche weiteren Abhangigkeiten oder EinflUsse auftreten. 
Beim Speichern der Daten in den genannten Speicher kann ein 
Status-Signal (Trigger, vgl, PACT08) generiert werden, das die 
iibergeordneten Ladeeinheit zum Nachladen der nSchsten 
Teilappllkation auffordert. Der Trigger kann bei der 
Verwendung von einfachen Registern als Speicher immer 
generiert werden, wenn das Register beschrieben wird. Bei der 
Veirwendung von Speichern, i.b. von solchen die nach dem FIFO- 
Prinzip arbeiten, ist die Generierung des Triggers von 
mehreren Bedingungen abhSngig. Folgende Bedingungen konnen 
beispielsweise einzeln oder kombiniert ein Trigger erzeugen: 

- Ergebnis-Speicher voll 

- Operanden-Speicher leer. 

- keine neuen Operanden 

- Beliebige Bedingung innerhalb der Teilappllkation, generiert 
durch z.B. 

* Vergleicher (gleich, grbfier, etc.) 

* zahler (Dberlauf) 

* Addierer (Oberlauf) 

Eine Teilappllkation wird im folgenden auch Modul genannt, um 
die Verstandlichkeit aus Sicht der klassischen Programmierung 
zu erhohen. Aus demselben Grund werden Signale im folgenden 
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aiich Variabien genannt. Dabei unterscheiden sich diese 
VaricLblen in einem Punkt .wesentlich von. herkoznmlichen 
Variabien: Jeder Variable is.t ein Statussignal (Ready) 
zugebrdnet, das anzeigt, ob diese Variable einen gUltigen Wert 
besitzt. Wenn ein Signal einen gUltigen (berechneten) Wert 
besitzt, ist das Statussignal Ready; wenn das Signal keinen 
gUltigen Wert besitzt (Berechnung nbch nicht abgeschlosseri) , 
ist das Statussignal Not_Ready, Das Prinzip. ist ausfUhrlich in 
der Pateritanmeldung P196 51 075.9 beschrieben. 

Zusaiamenfassend kann den Triggern folgende Funktionen 
zugeordnet werden; 

1* Steuerung der Datenverarbeitung als Status einzelner PAEs 
2. Steuerung der Umkonf iguration der PAEs (zeitliche Abfolge 
der Teilapplikationen) 

Irisbesondere die Abbruchkriterien von Schleifen (WHILE) und 
Rekursionen, sowie bedingte SprUnge in Teilapplikationen 
werden von Triggern realisiert. 

In Fall 1 werden die Trigger zwischen PAEs ausgetauscht, in 
Fall 2 werden die Trigger von den PAEs zur CT gesendet, 
Weisientlich an der Erfindung ist, dafi der Qbergang zwischen 
Fall 1 und 2 im wesentlichen von der Anzahl der gerade 
laufenden Teilapplikationen in der Matrix von PAEs abhangt, .. ... 
Mit anderen Worten, Trigger werden zu den Teilapplikationen 
gesendet, die auf den PAEs aktuell ausgefuhrt werden. Ist eine 
Teilapplikation nicht konf iguriert, so werden die Trigger an 
die CT gesendet. Wichtig dabei ist: Ware auch diese 
Teilapplikation konf iguriert, so wUrden die entsprechenden 
Trigger direkt an die entsprechenden PAEs gesendet werden. 

Dadurch ergibt sich eine automatische Skalierung der 
Rechenleistung bei steigender PAE-Groiie, bzw. der Kaskadierung 
mehrerer Matrizen aus PAEs. Es wird keine Umkonf igurationszeit 
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mehr benatigt, sondern die Trigger werden direkt an die nun 
"bereits kdhf igurierten PAEs gesendet. 

WavQ-RQConfiguration 

Durch eine geeignete Hardwarearchitektur {vgl. Fig* 10/11) ist 
es nioglich mehrere Module zu tiberlappen. D.h. mehr ere Module 
sind gleichzeitig in den PAEs vorkonf iguriert und es kann mit 
minimalem Zeitaufwand zwischen den Konf igurationen 
umgeschaltet werden, so dali aus einer Menge von mehreren 
Konf igurationen pro PAE immer genau eine Konf iguration 
aktiviert ist. 

Wesentlich ist/ daB dabei in einer Menge von PAEs in die ein 
Modul A und B vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleichzeitig 
mit einem Teil B aktiviert sein kann. Dabei ist die Trennung 
der beiden Teile exakt durch die PAE gegeben, in der der 
Umschaltezustand zwischen A und B auftritt. Das bedeutet, dafi 
ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei 
denen vor diesem Zeitpunkt A zur Ausfiihrung aktiviert war B 
aktiviert ist und bei alien anderen PAEs nach diesem Zeitpunkt 
immer noch auf A aktiviert ist. Mit steigender Zeit wird bei 
iinmer mehr PAEs B aktiviert. 

Die Umschaltung erfolgt aufgrund von bestimmten Daten, 
Zustanden die sich aus der Berechnung der Daten ergeben oder 
aufgrund beliebiger anderer Ereignisse, die beispielsweise von 
extern oder der CT generiert werden - 

Das bewirkt, dafi direkt nach Verarbeitung eines Datenpaketes 
zu einer anderen Konf iguration umgeschaltet werden kann. 
Gleichzeitig/Alternativ kann ein Signal (RECONFIG-TRIGGER) an 
den CT gesendet werden, das das Vor laden von neuen 
Konf igurationen durch den CT bewirkt. Das Vorladen kann. dabei 
auf anderen von der aktuellen Datenverarbeitung abhSngigen 
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Oder unabhangigen PAEs" erfolgen; Durch eine* Entkopplung dier 
aktiveri Konfiguration vori. den zur Unkonfigura^ 
VerfUgung stehenden Konfigurationen (vgl. Fig. 10/11) kbnnen 
auch gerade arbeitende (aktive) PAEsr insbesondere auch die 
PAE, die den RECONFIG- TRIGGER erzeugce, mit neuen 
Konfigurationen geladen werden. Dies erraoglicht eine mit der . 
Datenverarbeitung tiberlappende Konf iguratioh. 

In Figur 13 ist das Grundprinzip der Wave-Reconfiguration 
(HRC) dargestellt. Dabei. wifd yon einer. Reihe von PAEs (PAEl- 
9) ausgegangen, durch die die Daten pipeline^hnlich laufen. Es 
wird ausdrilcklich darauf hihgewiesen, da6 WRC nicht auf 
Pipelines beschrSnkt ist uiid die Vernetzung und Gruppierung 
der PAEs jede beliebige Form annehmen kann. Die Darstellung 
wurde jedoch gewahlt um ein einf aches Beispiel zum besseren 
Verstandnis zu zeigen. 

In Fig. 13a ISuft ein Datenpaket in die PAEl. Die PAE besitzt 
4 mogliche Konfigurationen (A, F, C) / die durch eine 
geeignete Hardware (vgl. Fig. 10/11) wahlbar sind. Die 
Konf iguration F ist in in PAEl ftir das aktuelle Datenpaket 
aktiviert (schraffiert dargestellt). 

Im n^chsten Takt l^uft das Datenpakt nach PAE2 iind ein neues 
Datenpaket erscheint in ..PAEl . Auch in PAE2 ist F aktiv. . 

Zusaminen iait dem Datenpaket erscheint ein Ereignis (tl) bei 
PAEl. Das Ergnis entsteht durch Eintreffen eines beliebigen 
Ereignisses von aussen bei der PAE (z.B. eines Statusflags 
Oder Triggers) oder wird innerhalb der PAE durch die 
ausgefUhrte Berechnung generiert. 

In Fig. 13c wird in PAEl aufgrund des Ereignisses (tl) die 
Konf iguration H aktiviert, gleichzeitig erscheint ein neues 
Ereignis {t2) , das im n^chsten Takt (Fig. 13d) die Aktivierung 
von Konf iguration A bewirkt. 
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In Fig. 13e trifft (T3) bei PAEl, die das Oberschreiben von F 
mit G bewirkt (Fig/ 13f ) . Durch das Eintreffen yon (t4) wird (3 
aktiviert (Fig. 13g) . (Ts) bewirkt das Laden von K anstelle 
yon C (Fig.l3h,i) und (To) ladt and startet F anstelle von H 
(Fig. 13j). 

In den Figuren 13g*) bis 13j*) wird verdeutlichtr dafi beim 
Durchlaufen einer Wave-Reconfiguration nicht alle PAEs nach .. 
demseiben Muster arbeiten mussen. Wie eine PAE von einer Wave^ 
Reconfiguration konfiguriert wird, ist prinzipiell abhangig 
von ihrer eigenen Konf iguration. Hier soil dargestellt werden, 
daii PAE4 bis PAE6 derart konfiguriert sind, dafi sie anders auf 
die Ereignisse reagieren, als die Ubrigen PAEs. Beispielsweise 
wird in Fig. 13g*) aufgrund von Ereignis T2 nicht A sondern H 
aktiviert (vgl. Fig. 13g) . Dasselbe gilt fiir 13h*) . Aufgrund 
von Ereignis t3 wird in Fig, 13i*) nicht G geladen, sondern 
die Konf iguration F bleibt bestehen und A bieibt aktiviert. In 
Fig. 13j*) ist bei PAE7 angedeutet/ dafi Ereignis t3 wieder das 
Laden von G ausiosen wird. In PAE4, bewirkt das Ereignis t4 
das Aktivieren von F anstatt der Konf iguration G (vgl. Fig. 

In Fig. 13 bewegt sich eine Welle von Umkonf igurationen 
aufgrund von Ereignissen durch eine Menge von PAEs, die 2- 
oder mehrdimensional ausgestaitet sein kann. 

Es ist nicht zwingend notwendig, daJ5 eine einmal stattf indende 
Umkonf iguration durch die gesamten Flufi hinweg stattf indet. 
Beispielsweise konnte die Umkonf iguration mit der Aktivierung 
von A aufgrund des Ereignisses (T2) nur lokal in den PAEsl bis 
3 und PAE7 stattfinden, wahrend in alien anderen PAEs 
weiterhin die Konf iguration H aktiviert bleibt. 
Mit anderen Worten: 
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a) £s ist mbglich, dafi ein Creigniss hur Idkal auftritt und 
. daher nur Idkal eine Uniaktivierung zur . Fblge hait; 

b) ein globales EreigniS/ hat maglicherweise keine Auswirkung 
auf manche PAEs; abhSngig vom ausgefUhrten Algorithmus- 

Bei den PAEs die. nach (t2) weiterhin H aktiviert halten, kann 
selbstverst^ndlieh das Eintreffen des Ereignisses (T3) 
vollkommen andere Auswirkungen haben, (I) wie etwa das 
Aktivieren von C statt deia Laden von (ii) andererseits 
konnte (t3) auf diese PAEs auch gar keinen Einflufi haben. 



Das Prozessormodell 

Die in den folgenden Figuren gezeigten Graphen besitzen als 
Graphenknoten immer in Modul, wobei davon ausgegangen wird, 
dafi mehrere Module auf einen Zielbaustein abgebiidet werden 
konnen. Das heifit, obwohl alle Module zeitlich voneinander 
unabhangig sind/ wird nur bei den Modulen eine Umkohf iguration 
durchgefuhrt, und/oder ein batenspeicher eingefugr, die mit 
einem vertikalen Strich lind At markiert sind. Dieser Punkt 
wird Utttkonfiguratibhszeitpunkt genannt. 

Der Umkonfigurationszeitpunkt ist abhSngig von den bestimmten 
Daten Oder den Zustanden die sich aus der Verarbeitung der 
bestizomten Daten ergeben. 

Das bedeutet zusammenf assend: 

1- Groiie Module konnen an geeigneten Stellen partitioniert 

werden und in kleine zeitlich voneinander unabhangige Module 

zerlegt werden, die optimal in das Array aus PAEs passen. 

2. Bei kieinen Modulen die gemeinsam auf einen Zielbaustein 

abgebiidet werden konnen, wird auf die zeitliche 
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Unabhangigkeit verzichtet. Dadurch werden 
Konfigurationsschritte eirigespart und die Datenverarbeitung 
beschleunigt. 

3. Die Umkonfigurationszeitpunkte werden entsprechehd der 
Ressourcen der Zielbausteine positioniert . Dadurch ist eine 
beliebige Skalierung der Grapheniange gegeben. 

4. Module konnen iiberlagert konfiguriert werden, 

5. Die Umkonfiguration von Modulen wird durch die Daten selbst 
Oder dem Ergebnis der Verarbeitung der Daten gesteuert. 

6. Die von den Modulen generierten. Daten werdien' gespeichert 
und die zeitlich nachfolgenden Module lesen die Daten aus 
diesem Speicher aus und speichern die Ergebnisse wiederum in 
einen Speicher oder geben das Endergebnis an die Peripherie 
aus. 

Die Zustandsinfonnationen des Prozessormodells 
Zur Bestimmung der Zustande innerhaib eines Graphen werden die 
Statusregister der einzelnen Zellen (PAEs) Uber ein zusatzlich 
zum Datenbus (0801) existierendes, frei rout- und 
segmentierbares Status-Bussystem (0802) alien anderen 
Rechenwerken zur Verfiigung gestellt (Fig. 8b) J Das bedeutet, 
daB eine Zelle (PA£ X} die Status information einer anderh 
Zelle (PAE Y) eyaluieren kann und dement sprechehd die Daten 
verarbeitet. Um den Unterschied zu bestehenden 
Paralleirechnersystemen zu verdeutiichen, ist in Fig. 8a der 
Stand der Technik angegeben, Dabei ist ein 
Multiprozessorsystem gezeigt, dessen Prozessoren Uber einen 
gemeinsamen Datenbus (0803) miteinander verbunden sind. Ein 
explizites Bussystem fiir den synchronen Austausch von Daten 
und Status existiert nicht. 

Mit anderen Worten ausgedrOckt, stellt das Netzwerk der 
Statussignale (0802) ein frei und gezielt verteiltes 
Statusregister eines einzelnen herkdmmlichen Prozessors (oder 
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mehrerer Prozessoren eines SMP-Cbraputers) dar. Der Status 
jeder einzelnen ALU (bzw. jedes ejLnzelnen Prozessors) und 
insbesondere jede einzelne Information des Status steht 
jeweils dem oder den ALUs (Prozessoren) zur Verfugung, die die 
Information benbtigen. Dabei entsteht keine zusatzliche 
Programme oder Kommunikationslauf zeit (abgesehen von den 
Sigitalllauf zeiten) um die Informationen zwischen den ALUs 
(Prozessoren) auszutauschen. 

.Abschliefiehd soil angemerkt werdeh, daJ^. je: nach Aufgabie sowohl . 
der Datenflubgraph, als auch der Kontrollf luBgraph 
entsprechend dem beschriebenen Verfahren behandelt warden 
kann. 

Virtual Machine Model 1 

Die Grundlagen der Datenverarbeitung mit VPU-Bausteinen sind 
entsprechend der vorhergehenden Abschnitte hauptsachlich 
datenfluJJorientiert. Um sequentielle Programme mit 
ordentlicher Leistung abzuarbeiten, ist es jedoch notwendig 
ein sequentielles Datenverarbeitungsmodell zur Verfiigung zu 
haben. Dabei sind oftmals die Sequenzer in den einzelnen PAEs 
nicht ausreichend. 

Die Architektur von VPUs ermoglicht jedpeh grundsatzlich den 
Aufbau von beliebig komplexeh Sequenzern aus einzelnen PAEs* 
Das bedeuted: 

1. Es kdnnen kompiexe Sequenzer konfiguriert werden, die exakt 
den Anforderungen des Algorithmiis entsprechen. 

2. Der Datenflufi kann durcb entsprechende Konfiguration, exakt 
die Rechenschritte des" Algorithmus represent ieren. 

Dadurch kann eine Virtuelle Maschine auf VPUs implementiert 
werden, die insbesondere auch den sequentiellen Anforderungen 
eines Algorithmus entspricht. 
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HauptvorteiX def VPU-rArchitektur ist, dafi ein Algorithmus, 
durch eineh Compiler so zerteilt werden kann^ dafi die 
Datenflufiteile extrahiert werden dureh einen "optimalen" 
DatenfluB reprSsentiert werden, indem ein angepafiter Datenflufl 
konfiguriert wird UND die sequentiellen. Teile des Algorithmus. 
dufch einen "optimalen" Sequenzer reprasentiert warden, ihdem 
ein angepaBter Sequenzer. konfiguriert wird. Dabei kannen 
gleichzeitig mehrere Sequenzer und Datenfliisse auf einer VPU 
untergiebracht werden, ausschliiefllich abhahgig von den zur . 
VerfUgung stehenden Ressourcen. 

Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen Zustande. Bei Taskwechseln Oder 
Unterprogramm-Aufrufen (Interrupts) miissen diese Zustande 
gesichert werden (vgl. PUSH/POP bei Standardprozessoren) . Dies 
ist jedoch aufgrund der Menge an Zust^nden nicht sinnvoll 
m5glich. 

Um die Zustande auf eine handhabbare Menge zu reduzieren mufl 
zwischen zwei Arten von Ziistanden uncerschieden werden: 
1. Zustandsinformationen des Maschinenmodells (MACHINE-STATE)., 
-Diese Zustandsinformationen sind nur innerhalb der 
Abarbeitung eines bestimmten Modules gtiltig und werden alich 
nur lokal in den Sequenzern und Datenf luBeinheiten dieses 
bestimmten Modules verwendet. D.h. diese MACHINE -.STATES 
reprasentieren die Zustande, die in Prozessoren nach dem 
Stand der Technik verdeckt innerhalb der Hardware ablaufen, 
implizit in den Befehlen und den Verarbeitungsschritten 
sind und nach Ablauf eines Befehles keine weitere 
Information fUr nachfolgende Befehle beinhalten. Derartige 
Zustande brauchen nicht gesichert zu werden. Bedingung 
dafUr ist/ dafi Interrupts nur nach kompletter AusfUhrung 
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aller gerade aktiven Module durchgefuhrt vierden. Stehen 
Interrupts zur Ausfuhrung an, werden keine* neiien Module 
geladen, sondern nur noch aktive abgearbeitet; ebenfalls 
warden den aktiven Modulen, soweit^es der Algorithmus 
zulafit keine rieuen Operanden mehr zugefUhrt. Dadurch wird 
ein .Modul 2U einer atomaren nicht unterbrechbaren Einheit, 
vergleichbar rait einer Instruktion eines Prozessors nach 
dem Stand der Technik. 
2. Zustande der Datenverarbeitung (DATA-STATE) . Die 
datehbezbgeneri Zustande mtisseri beim. Auf treten eines 
Interrupts entsprechend den Prozessormodellen nach dem 
Stand der Technik ges.ichert und in den Speicher geschrieben 
werden. Das sind bestimmte notwendige Register und Flags 
Oder - entsprechend der Begriffe der VPU-Technologie - 
Trigger. 

Bei den DATA-STATEs kann die Handhabung je nach Algorithmus 
weiter vereinfacht werden. Zwei grundlegende Strategien werden 
im Folgenden nahers eriautert: 
1. Mitlaufen der Zustandsinformation 

Dabei werden alle reievanten und zu einem spateren Zeitpunkt. 
benotigten Zustandsinf ormationen von einem Modul zum nachsten 
tibertragen/ wie es in Pipelines oftmals standardmSBig 
implementiert ist. Die Zustandsinf ormationen werden dann 
zusammen mit den Daten implizit in einem Speicher abgelegt, 
sodaB die Zustande bei einem Abruf der Daten zugleich zur 
Verfiigung stehen. Ein explizites Handhaben der 
Zustandsinformationen i-b. mittels PUSH und POP entfailt 
dadurch, was je nach Algorithmus einerseits zu einer 
wesentlichen Beschleunigung der Abarbeitung und andererseits 
zu einer vereinfachten Prograinmierung filhrt. 
Die Zuscandsinformaton kann wahlweise entweder mit dem 
jeweiligen Datenpaket gespeichert werden, oder nur im Falle 
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e'ines Interrupts gesichert und besonders gekehnzeichhet 
.wierden. ■ 

2. Sichern der Reentry Adresse 

Bei der Verarbeitung von grofien Datenmengen, die in einem 
Speicher abgelegt sind, ist kann es sinnvoll sein die. Adresse , 
mindestens einer der Operanden des gerade verarbeiteten 
Datenpaketes mit dem Datenpaket zusammen durch die PAEs zu 
leiten. Dabei wird die Adresse nicht modifiziert sondern steht 
beim Schreiben des Datenpaketes in ein RAM als Pointer auf den 
letzten verarbeiteten Operanden zur VerfUgung. 
Dieser Pointer kann wahlweise entweder mit dem jeweiligen 
Datenpaket gespeichert warden, oder nur im Falle eines 
Interrupts gesichert und besonders gekennzeichnet werden. 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse (oder eine Gruppe von Adressen) berechnet werden 
kdnnen ist es sinnvoll nur eine Adresse (oder eine Gruppe von 
Adressen) zu sichern. 

''ULIW">"UCISC"-Modell 

FDr das Verstandnis dieses (einem Prozessor nach dem Stand der 
Technik sehr ahlichen) Modells ist eine Erweiterung der 
Betrachtungsweise der Architektur von VPUs erforderlich. Dabei. - 
dient das Virtual-Machine Model 1 als Grundlage. 
Das Array aus PAEs (PA) wird als in ihrer Architektur 
konfigurierbare Recheneinheit betrachter. Der/die CT(s) 
stellen eine Ladeeinheit (LOAD-UNIT) fUr Opcodes. dar. Die 
lOAG(s) abernehmen das Businterface und/oder den Registersatz . 

Diese Anordnung ermoglicht zwei grundsStzliche 
Funktionsweisen, die im Betrieb gemischt verwendbar sind: 
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1. Eirie Gruppe von PAEs (das kann auch eine PAE seiri) wird zur 
AusfUhfung eines komplexen Befehls pder Befehlsfblge • 
konfiguriert und danach werden die auf diesen Befehl bezogenen 
Daten (das kann auch ein einziges Datenwort sein) verarbeitet. 
Danach wird diese Gruppe umkonf iguriert, ziir Abarbeitung des 
nachsten Befehles, Dabei kann sich die GroBe und Anordnung der 
Gruppe andern. GeroSfi den bereits besprochenen 
Partitionierungstechnologien obliegt es dem Compiler, 
moglichst optimale Gruppen zu schaffen. Durch den CT werden 
Gruppen als Befehle auf den. Baustein " ge laden dadurch ist 
des Verfahren mit dem bekannten VLIW vergleichbar, nur dafi 
erheblich raehr Rechenwerke verwaltet werden UND die 
Vernetzungsstruktur zwischen den Rechenwerken ebenfalls vom 
Instruktionswort abgedeckt werden kann (Ultra Large 
Instruction Word = "ULIW") , Dadurch laBt sich ein sehr hoher 
Instruktion Level Parallelism (ILP) erreichen, (siehe auch Fig 
27) . Ein Instruktionswort entspricht dabei einem Modul. 
Mehrere Module konnen gleichzeitig verarbeitet werden, sofern 
es die Abhiangigkeit der Daten zulaBt und genOgend Ressourcen 
auf dem Baustein frei sind, Wie bei VLIW-Befehlen wird fUr 
gewbhnlich nach AusfOhreh des Instruktionswbrtes sofort das 
nachste Instruktionswort. geladen. Zur zeitlichen Optimierung 
• .1st. es dabei moglich das na'chste Instruktionswort bereits. 
wahrend der AusfOhrung vorzuladen (vgl. Fig. 10). Bei mehreren 
mbglichen nachsten Instruktionsworten konnen mehrere 
vorgeladen werden und vor der Ausfuhrung wird z.B. durch ein 
Triggersignal das korrekte Instruktionswort ausgewShlt. (siehe 
Figur 4a B1/B2, Figur 15 ID C/ID K, Figur 36 A/B/C) 

2. Eine Gruppe von PAEs (das kann auch eine P.AE sein) wird zur 
Ausfuhrung einer haufig gebrauchten Befehlsfolge konfiguriert. 
Die Daten, das kann auch hier ein eirizelnes Datenwort sein, 
werden bei Bedarf der Gruppe zugefUhrt und von der Gruppe 
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empfangen. biese Gruppe bleibt Uber eine Vielzahl von Takteh 
ohne Umkonf iguration Ijesteheri. Vergleichbar ist.diesje 
Anordnung mit. einem speziellen Rechenwerk in einem Prozessor 
nach dem Stand der Technik (z.B. MMX)-> das fiir Spezialauf gaben 
vbrgesehen ist und nur bei Bedarf verwendet wird, Durch diesen 
Ansatz sind. Spezialbefehle entsprechend des CISC-Prinzipes 
generierbar; mit dem Vorteil; daft' diese Befehie 
anwendungsspezif isch geschaffen werden konnen (Ultra-CISC = 
"UCISC") . 

Erweiterunq des RDY/ACK-Protokolls (vgl. PACTQ2) 
In PACT02 ist ein RDY/ACK-Standardprotokoll beschrieben, das 
die wesentlichen Anforderungen gemaii den Synchronisationen von 
DE 44 16 881 in Hinblick auf eine typische 

Datenflufiapplikation beschreibt. Nachteil des Protokolles ist, 
dafi lediglich Daten gesendet und der Eropfang bestStigt werden 
kann. Der umgekehrte Fall, indem Daten angefordert werden und 
das Versenden bestatigt wird (im Folgenden REQ/ACK genannt/ 
ist zwar elektrisch mit demselben Zweidrahtprotokoll Ibsbar, 
jedoch semantisch nicht erfaflt* Das gilt insbesondere/ . wenn 
REQ/ACK und RDY/ACK gemischt betrieben werden. 
Daher wird die klare Unterscheidung; der Prptokoil^ eingefUhrt: 
RDY: Daten liegen beim Versender fUr den Empf anger bereit 
REQ: Daten werden vom Empf anger beim Versender angefordert 
ACK: Allgemeine Bestatigung fur erfolgten Emfang Oder Versand 

(Prinzipiell kdnnten auch zwischen ACK fiir ein RDY und einem 
ACK fur ein REQ unterschieden werden, jedoch ist in den 
Protokollen die Semantik des ACKs fur gewbhnlich implizit) • 



Spei chermodel 1 
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in VPUs kbnnen Speicher integriert werden (einer oder 
mehrere), die khhlich einer &AE ahgesprochen wefdeh-. Es wird 
im folgenden ein Speichenapdell beschrieben, das gleichzeitig 
ein Interface zu externer Peripherie -und/oder externem 
Speicher darstellt: 

Ein VPU-interner Speicher mit PAE-ahnlichen Busf unktionen kann • 
verschiedehe Speichermodi darstellen: 

1. Standardspeicher (Random Access) 

2. Cache (als Erweiterung des Standardspeichers) 

3. Lookup-Tabelle 

4. FIFO 

5. LIFO (Stack) 

Dem Speicher ist ein steuerbares Interface zugeordnet, das 
Speicherbereiche wahlweise wort- oder blockweise schreibt oder 
liest. 

Dadurch ergeben sich folgende Nutzungsmeglichkeiten: 

1. Entkopplung von DatenstrOmen (FIFO) 

2. Schneller Zugriff auf selektierte Speicherbereiche eines 
externen Speichers, was eine Cache^hnliche Funktion 
darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Tiefe (LIFO) . 

Dabei kann das Interface benutzt werden, es ist jedoch nicht 
zwingend notwendig, wenn die Daten z.B. ausschlieiilich lokal 
in der VPU verwendet werden und der Speicherplatz eines 
internen Speicher s ausreicht. 

Stack Mode 11 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im LIFO-Modus kann ein einfacher Stack-Prozessor 
aufgebaut werden. Dabei werden temporare Daten von den PAEs 
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auf den Stack geschrieben und bei Bedarf von dem istack 
geladen/ Die hieirftir: hotwehdigeh cbmpilertechriologien sind 
hinreichend bekannt. Durch die variierbare Stacktiefe, die 
durch einen Datenaustausch des internen Speicher mit einem 
externen Speicher erreicht wird, kann der Stack beliebig grofi 
werden. 

Akkumulator Modell 

Jede PAE kann eine Recheneinheit nach dem Akkumulatorprinzip 
darstellen. Wie aus PACT02 bekannt ist es moglich die 
Ausgangsregister auf den Eingang der PAE rUckzukoppeln* 
Dadurch entsteht ein Akkumulator nach dem Stand der Technik. 
In Verbindung mit dem Sequenzer nach Fig. 11 lassen sich 
einfache Akkumulator-Prozessoren aufbauen. 

Register Modell 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher-Modus kann ein einfacher 
Regis ter-Prozessor aufgebaut werden. Dabei werden die 
Registeradressen von einer Gruppe von PAEs generiert, wahrend 
eine andere Gruppe. von PAEs die Verarbeitung der Daten 
ubernimmt . 

Architektur des Speichars 

Der Speicher besitzt zwei Interface. Ein eristes* das den 
Speicher mit dem Array verbindet und ein zweites/ das den 
Speicher mit einer lO-Einheit verbindet. Zur Verbesserurig der 
Zugrif fszeit sollte der Speicher als Dual-Ported-RAM 
ausgestaltet sein, wodurch Schreib- und Lesezugrif f en 
unabhangig voneinander erfolgen konnen. 
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Dais erste Interface ist Ubiiches" PAE-Interface (PAEI) , das deh 
- Zugang zum Bussystem des. Arrays gew^hrleistet,: sowie die.; 
Synchronisation und Triggerverarbeitung sicherstelit . Trigger 
konnen verwendet werden und verschiedene Zustande des 
Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, 
beispielsweise ... 

1. Empty/Full: Beim Einsatz ais FIFO wird der- FIFO- Zust and 
"veil", "fast-voll"/ "leer", ^fast-leer" angezeit; 

2. Stack overrun/underrun: Beim Einsatz ais Stack werden 
Uberlauf und Uriterlauf des Stacks signalisiert; 

3. Cache hit/miss: Ira Cache-Mode wird angezeigt, ob eine 
Adresse im Cache gefunden wurde; 

4. Cache flush: Durch einen Trigger wird das Schreiben des 
Caches in den externen RAM erzwungen. 

Dem PAE-Interface zugeordnet ist eine konf igurierbare 
Zustandsmaschine, die die verschiedenen Betriebsarten steuert. 
Der Zustandsmaschine ist ein Z^hler zugeordnet um die Adressen 
im FIFO- und LIFO-Modus zu generieren. Die Adressen werden 
Ober einen Multiplexer an den Speicher gefUhrt, damit 
zusatzlich Adressen, die im Array generiert werden an den 
Speicher gefUhrt werden kbnnen. 

Das zweite Interface dient zum AnschluB. einer lO-Einheit 
(lOI) • Die lO-Einheit ist ais konf igurierbarer Kontroller mit 
einem externen Interface ausgestaltet . Der Kontroller liest 
Oder schreibt wort- oder blockweise Daten in bzw. aus dem 
Speicher. Die Daten werden mit der lO-Einheit ausgetauscht . 
Weiterhin unterstUtzt der Kontroller mittels eines 
zusatzlichen TAG-Speichefs diverse Cache-Funktionen. 

lOI und PAEI sind miteinander synchronisiert, sodafi keine 
Kollision der beiden Interface eintritt. Die Synchronistation 
ist je nach Betriebsart unterschiedlich, wahrend 
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beispielisweise im Standardspeicher- Oder Stack-Mode immer nur 
entwisder d4s ,iOI bder das PAEI auf deh gesamten Speicher . 
zugreifen kann, ist im FIFO-Modus die Synchronisation 
zeilenweise, d.h. wShrend lOI auf ein« Zeile x zugreift/ kann 
das PAEI auf jede andere Zeile ungleich x gleichzeitig 
. zugreifen. 

Die io-Einheit wird entsprechend der peripheren Erfordernisse 
ausgestaltet, beispielsweise: 

1. -SDRAM Kontroller 

2. RDRAM Kontroller 

3. DSP-Bus Kontroller 
4* PCI Kontroller 

5. Serieller Kontroller (z.B. NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

Eine VPU kann beliebige Speicherelemente mit beliebigen 10- 
Einheiten besitzen. Dabei kSnnen unterschiedliche lO-Einheiten 
auf einer VPU implementiert sein. 

Funktionsweise : 

1. Standardspeicher 

1.1 iritern/lokal 

Ober das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht. Die adressierbare Speicher groBe ist durch die 
Speichergrafie beschr^nkt. 

1.2 extern/memory mapped window 

Ober das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht. Im Kontroller des lOI ist eine Basisadresse im 
. externen Speicher angegeben. Der Kontroller liest blockweise 
Daten von der externen Speicheradresse und schreibt sie in den 
Speicher, wobei die internen und externen Adressen jeweils 
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inkreinentiert (oder dekrementiert) werden; so lange/ bis 6&t 
igesamte interne Speicher.Uber trag^n imr^ eihe- 
voreingestellte Grenze erreicht wurde. Das Array arbeitet mit 
den lokalen Daten, bis diese vom Kontrolier wieder in den 
externen Speicher geschrieben werden. Das Schreiben verlauft 
analog deni beschriebenen Lesevorgang. 
Das Lesen uhd Schrieibeh dufch den Kontrolier kann 

a) durch Trigger angestofien werden oder 

b) durch einen Ziigriff des Arrays auf eine nicht lokal 
gespeicherte Adresse.Greift das Array auf eine derartige 
Adresse zu, wird zuhachst der interne Speicher in den externen 
geschrieben und danach der Speicherblock um die gewUnschte 
Adresse nachgeladen. 

Diese Betriebsart ist besonders fUr die Implementierung eines 
Regist ersatzes fUr einen Registerprozessor interessant, Durch 
einen Trigger kann in diesem Fall das Push/Pop des 
Registersatzes mit dem externen Speicher fUr einen Taskwechsel 
Oder eine Kontextumschaltung realisiert werden. 

1.3 extern/lookup table 

Die Lookup Tabellen Funktion ist eine Vereinfachung von 1.2. 
Dabei werden die Daten entweder einmal oder mehrmals durch 
einen CTrAufruf oder einen Trigger ybm externen . RAM in den 
internen gelesen. Das Array liest Daten aus dem internen 
Speicher, schreibt jedoch keine Daten in den internen 
Speicher. Die Basisadresse im externen Speicher ist im 
Kontrolier entweder durch die CT oder das Array gespeichert 
und kann zur Laufzeit verandert werden. Das Laden aus dem 
externen Speicher wird entweder von der CT oder durch einen 
Trigger aus dem Array ausgel£3st und kann ebenfalls zur 
Laufzeit geschehen. 



1.4 extern/cached 
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In diesem Modus greift das Array waihlweise auf den Spieicher 
vzu. Der Speicher arbeitet. wie; ein Cache-Speicher. fur d^ 
externen Speicher nach dem Stand der Technik. Durch einen 
Trigger aus dem Array oder durch die -CT kann des leeren des 
Caches (d.h, das vollstandige Schreiben des Caches in den 
. externen. Speicher) hervorgeruf en werden. . 

2. FIFO 

Der FIFO-Modus wird ublicherweise verwendet, wenn Datenstr(3me 
von extern an die VPU gefuhrt . werderi: Danii dieht der FIFO als / 
Entkopplung zwischen der externen Datenverarbeitung und der 
VPU-internen Datenverarbeitung, derart daB entweder von extern 
auf den FIFO geschrieben wird und von der VPU gelesen oder 
genau umgekehrt. Die Zust^nde des FIFOs werden durch Trigger 
zum Array und ggf. auch nach extern signalisiert . Der FIFO 
selbst wird nach dem Stand der Technik mit unterschiedlichen 
Schreib- und Lesezeigern implementiert . 

3. Stack/ intern 

Durch ein Adressregister wird ein interner Stack aufgebaut. 
Bei jedem Schreibzugrif f aiif den Speicher durch das Array wird. 
das Register je nach Mode (a) inkrementiert (b) dekrementiert • 
Bei Lesezugriffen vom Array aus wird des Register umgekehrt 
(a) dekrementiert und (b) inkrementiert. Das Register stellt 
fur jeden Zugriff die erforderliche Adresse zur VerfUgung. Der 
Stack ist durch die Grdfle des Speichers begrenzt. Fehler 
(Uberlauf/Unterlauf ) werden durch Trigger angezeigt. 

4. Stack/extern 

Sofern der interne Speicher zu klein fUr den Aufbau eines 
Stacks ist, kann er in den externen Speicher ausgelagert 
werden. Dazu besteht im Kontroller ein Adresszahler ftir die 
externe Stackadresse* Wird eine bestimmte Menge an Eintrgkgen 

- 23 / 96 - 



wo 00/77652 



PCT/DEOO/01869 



im internen Stack Uberischritten/ Wird blockweise eine Anzahl 
vph. Eintragen auf den externen Stack geschrieben. Der Stack 
wird vom Ende her, also vom Sltesten Eintrag aus nach extern 
geschrieben/ wobei eine Menge von neuesten Eintragen nicht 
nach extern .geschrieben wird, sondern intern verbleibt. Der 
externe Adresszahler (EEC) wird zeilenweise modif iziert 

Nachdem Platz im internen Stack geschaffen wurde mufi der 
verbleibende Stack-Inhalt an den Beginn des Stacks beweg't 
werd^n, die interne. Stackadress.e wird entsprechend angepafit. 

Eine effizientere Variante ist des Auslegen des Stacks als 
Ringspeicher {vgl. PACT04) . Ein interner Adresszahler wird 
durch das HinzufUgen Oder Entfernen von StackeintrSgen 
modif iziert. Sobald der interne Adresszahler (lAC) am oberen 
Ende des Speichers Uberschreitet, zeigt er auf die unterste 
Adresse. Unterschreitet der lAC die unterste Adresse, zeigt er 
auf die oberste. Ein zusatzlicher zahler (FC) zeigt den 
FQllstand des Speichers an, d.h. mit jedem geschriebenen Wort 
wird der zahler inkrementiert, mit jedem gelesenen 
dekrementiert. Anhand des FC ist erkeiinbar, wann der Speibher 
leer, bzw. voll ist. Diese Technologie ist von FIFOs bekannt. 
Wird. damit ein Block in den externen Speicher geschrieben, 
reicht die Anpassung des FC um den Stack zu aktualisieren. Ein 
externer Adresszahler (EAC) zeigt immer auf den altesten im 
internen Speicher befindlichen Eintrag und befindet sich damit 
an dem lAC entgegengesetzten Ende des Stacks. Der EAC wird 
modif iziert, wenn 

(a) Daten auf den externen Stack geschrieben werden, dann 
lauft er in Richtung des lAC, 

(b) Daten vom externen Stack gelesen werden, dann entfernt er 
sich vom I AC. 
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Durch Oberwachung des FC wird sichergestellt, dafi lAC und EAC 
hicht kollidxereh.. 

Der ERC wird entsprechend der exteriren Stackoperation (Auf- 
oder Abbau) modifiziert. 

MMU 

Dem externen Speicherinterface kann eine MMU zugeordnet 
werden, die zwei Funktionen erfUllt: 

1 , Umrechnung der internen Adressen auf externe Adressen zur 
UnterstUtzung moderner Betriebsysteme 

2. Oberwachung der Zugriffe auf externe Adressen, z.B. 
generieren eines Fehlersignales als Trigger, wenn der externe 
Stack liber- Oder unteriauft. 

Coropiler 

Das erfindungsgemafie Programmierprinzip der VPU-Technologie 
besteht darin, sequentiellen Kode zu separieren und in 
mbglichiSt viele kleine und unabhangige Teilalgorithmen zu 
zerlegen, wahrend die Teilalgorithmen des Datenfluficodes 
direkt auf die VPU abgebildet wird. - 

Trennung zwischen VPU- und Standart-Kode 
Innerhalb einer Sprache nach den Stand der Technik, 
reprasentativ far alle moglichen Compiler (Pascal, Java, 
Fortran, etc) soli C++ im weiteren verwendet werden, kann eine 
spezielle Erweiterung (VC = Vpu C) definiert werden, die die 
Sprachkonstrukte und Typen enthSlt, die besonders gut auf eine 
VPU-Technologie abbildbar sind. VCs dUrfen voro Progreunmierer 
nur innerhalb von Proceduren oder Functionen verwendet werden, 
die keine anderen Konstrukte oder Typen verwenden. Diese 
Proceduren und Functionen sind direkt auf die VPU abbildbar 
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und laufen besonders effizient ab. Der Compiler extrahiert die 
VC im PVaprozessbr \md gibt sie direkt aii das VCTBack^ndr • 
Processing (VCBP) weiter. 

Extraktion des parallelisierbaren Compiler-Kodes 
Im nachsten Schritt analysiert der Compiler die restlichen C++ 
Codes und extrahiert die Telle (MC = mappabie C) , die giit 
parallelisierbar und ohne den Einsatz von Sequenzern auf die 
VPU-Technologie abbildbar sind. Jedes elnzelne MC wird in ein 
-virtuelles Array plaziert. und geroutet* Danach wird der 
Platzbedarf, sowie die zu erwartende Performance analysiert. 
Dazu wird das VCBP aufgerufen und die einzelnen MC werden 
zusammen mit den VC, die in jedem Fall abgebildet werden, 
partitioniert . 

Die MCs, deren VPU- Implement ierung den hdchsten Leistungs- 
Zuwachs erzielen werden Ubernommen, die restlichen werden als 
C++ an die nachste Compilers tufe weitergereicht. 

Qptimieriander Sequenzer Generator 

Diese Compilerstuf e ist je nach Architektur des VPU-Systems 
unterschiedlich in^lementierbar: 

1. VPU ohne Sequenzer und externer Prozessor 
samtliche verbleibenden C++ Kodes werden fUr den externen 
Prozessor compiliert. 

2. Nur VPU mit Sequenzer 

2.1 Sequenzer in den PAEs 

samtliche verbleibenden C++ Kodes werden fUr die Sequenzer der 
PAEs compiliert. 

2.2 Konfigurierbare Sequenzer im Array 

Der verbleibende C++ Code wird ftir jedes unabhangige Modul 
analysiert. Die jeweils am besten geeignete Sequenzer-Variante 
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wird aus einer Datenbank ausgewahlt urid als VC-Code (SVC) 
abgelegt. Dieser Schritt is t meist iterative d.h. eihe 
Sequenzer-Variante wird ausgewahlt, der Code wird compiliert, 
analysiert und roit dem compilierten Code anderer Sequenzer- 
Varianten verglichen. Letztlich wird der Objectcode (SVCO) des 
C++ Codes fUr den gewahlten SVC generiert. 
2*3 sowohl 2.1 als auch 2.2 werden verWendet 
Die Funktionsweise entspricht der von 2.2. FUr die Sequenzer 
in den PAEs bestehen besondere statische Sequenzer-Modelle in 
der Datenbank. 

3. VPU mit Sequenzer und externer Prozessor 
Auch diese Ftinktionsweise entspricht 2.2. FUr den externen 
Prozessor existieren besondere statische Sequenzer-Modelle in 
der Datenbank. 

Linker 

Der Linker verbindet die einzelnen Module (VC, MC, SVC und 
SVCO) zu einem ausfUhrbaren Prograiom. Dazu verwendet er das 
VCBP um die einzelnen Module zu plazieren, zq routen und die 
zeitliche Parti tionierung festzulegen. Der Linker fUgt 
ebenfalls die Kozmaunikationsstrukturen zwischen den einzelnen 
Mpdulen hinzu und fUgtgegebenenfalls Register und Speicher . 
ein. Aufgrund einer Analyse der Kontrollstrukturen und 
Abhangigkeiten der einzelnen Module werden Strukturen zum 
Speichern der internen Zustande des Arrays und der Sequenzer 
fUr den Fall einer Reconfiguration hinzugefUgt. 

Bemerkunqen zu den Prozessormodellen 

Die verwendeten Maschineniaodell kdnnen innerhalb einer VPU 
beliebig kombiniert werden. Auch innerhalb eines Algorithmus 
kann je nach dem, welches Modell optimal ist, zwischen den 
Modellen' gewechselt werden. 
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Wird einem Register-Prozessor ein weiterer Speicher zugeftlgt/ 
von dem die Operanden gelesen werden und in den die Ergebnisse 
geschrieben werden, kann eine Load/Store-Prozessor aufgebaut 
werden. Dabei konnen mehrere verschiedene Speicher zugeordnet 
werden, indem die einzeinen Operanden und das Ergebnis 
getrennt behandelt wird. 

Diese Speicher arbeiten dann quasi als Load/Store-Einheit und 
stellen eine Art Cache fur den externen Speicher dar. Die 
Adressen werden. durch von der Datenverarbeitung separierte 
PAEs berechnet. 

Pointer Reordering 

Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr 
schlecht durch Pipelines gehandhabt werden kdnnen. Wenn ein 
Pointer erst direkt vor dem- Verwenden der Datenstrukturen auf 
die er zeigt, berechnet wird, kann h^ufig die Pipeline nicht 
schnell genug gefUllt werden und die Verarbeitung wird 
speziell in VPUs ineffizient. 

Sicherlich ist es sinnvoll bei der Programmierung von VPUs 
maglichst keine Pointer zu verwenden, ^edoch ist das oftmaLs 
nicht moglich, . 

Die iiosung ist, die Pbinterstrukturen durch den Compiler so 
umzusortiereh, dafi die Pointeradressen mdglichst lange vor 
deren Verwendung berechnet werden. Gleichzeitig sollte es 
m5glichst wenig direkte Abh^ngigkeiten zwischen einem Pointer 
und den Daten auf die er zeigt geben. 

ErwQiterungen der PAEs (geqenuber P196 51 075.9 und P196 54 
846.2) 
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Durch P196 51 075.9 und P196 54 846.2 ist der Stand der 
. Technik in Bezug auf /die Konf iguratipnseigenschafteh. w .. 
Zellen (PAEs) definiert. 

Dabei soli auf zwei Eigenschaf ten eimgegangen werden: 

1. Einer PAE (0903) ist gemaB P196 51 075.9 ein Satz von 
Konfigurationsregistern (0904) zugeordnet, der eine . . 
Konfiguration beinhaltet (Fig. 9a). 

2. Eine Gruppe von PAEs. (0902) kann gemaB P196 54 846.2 auf 
einen Speicher zum Speichern Oder Leseh von Daten. zugreifen 
(Fig. 9b) 

Aufgabe ist es# 

a) ein Verfahren zu schaffen, das das Umkonf igurieren von PAEs 
beschleunigt und zeitlich von der tibergeordneten Ladeeinheit 
entkoppelt/ und 

b) das Verfahren so auszulegen, dafi gleichzeitig die 
Mdglichkeit geschaffen wird Uber mehrere Konf igurationen zu 
sequenzen, und 

c) gleichzeitig mehrere Konf igurationen in einer PAE zu 
halten, von denen immer eine aktiviert ist und zwischen 
verschiedenen konf igurationen schnell gewechselt werden kanri. 

Entkopplpng der Konfigurationsregister 

Das Konfigurationsregister wird von der Ubergeordneten 
Ladeeinheit (CT) . entkoppelt (Fig. 10), indem ein Satz von 
mehreren Konfigurationsregistern (1001) verwendet wird. Immer 
genau eines der Konfigurationsregister bestimmt selektiv die 
Funktion der PAE. Die Auswahl des aktiven Registers wird Uber 
einen Multiplexer (1002) 'durchgefUhrt . In jedes der 
Konfigurationsregister kann die CT beliebig schreiben, sofern 
dieses nicht die aktuelle Konfiguration der PAE bestimmt, d.h. 
aktiv ist. Das Schreiben auf das aktive Register ist 
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prinzipiell mbglich/ dazu stehen die in PACTIO beschriebenen 
Verfahren zur Verfiigung. 

Welches Konfigurationsregister von 1002 selektiert wird kann 
durch verschiedene Quellen bestimmt werden: 

1. Ein' beliebiges Status-Signal oder eine Gruppe beliebiger 
Status-Signale, die uber ein Bussystem (0802) an .1002 gef.Uhrt 
werden (Fig. 10a). Die Status-Signale werden dabei von 
beliebigen PAEs generiert oder durch externe Anschliisse des 
Bausteins zur Verftigung gestellt (vgl. Fig. 8). 

2. Das Status-Signal. der PAE, die von 1001/i()02 konfiguriert 
wird, dient zur Selektion (Fig. 10b) . 

3. Ein von der Ubergeordneten CT generiertes Signal dient zur 
Selektion (Fig. 10c) . 

Dabei ist es maglich wahlweise die eingehenden Signale (1003) 
mittels eines Registers fUr einen bestimmten Zeitraum zu 
speichern und alternativ und wahlweise abzurufen. 

Durch den Einsatz mehrere Register wird die CT zeitlich 
entkoppelt- Das bedeutet, die CT kann mehrere Konf igurationen 
"vorladen"/ ohne dafi eine direkte zeitliche Abhangigkeit 
besteht. 

Lediglich wenn das selektierte/aktivierte- Register in 1001 
hoch nicht geladen ist, wird mi t der Konfiguration der PAE- so 
lange gewartet, bis die CT das Register geladen hat. Um 
festzustellen, ob ein Register eine gilltige Information 
besitzt kann beispielsweise ein "Valid-Bit" (1004) pro 
Register eingefUhrt werden, das von der CT gesetzt wird. Ist 
0906 bei einero selektierten Register nicht gesetzt, wird tiber 
ein Signal die CT zum schnellstmoglichen Konf igurieren des 
Registers aufgefordert . 

Das in Fig. 10 beschriebene Verfahren ist einfach zu einem 
Sequenzer erweiterbar (Fig. 11). Dazu wird ein Sequenzer mit 
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Instruktibnsdekoder (1101) zur Ansceuerung der 
Selektionssignale des Multiplexers (100,2). yerwendet.- Der 
Sequenzer bestimmt dabei abhSngig von der a)ctuell selektierten 
Konfiguration (1102) und einer zus^t^lichen Statusinformation 
(1103/1104) die nachste zu selektierende Konfiguration. Die 
. die Statusinformation. kann, 

(a) der Status der Status-Signal der PAE^ die von 1001/1002 
konfiguriert wird sein (Fig. 11a) 

(b) ein beliebiges. Uber 0802 zugefUhrtes Statussignal sein 
.(Fig.- lib)' • 

(c) eine Kombination aus (a) und (b) sein. 

1001 kann auch als Speicher ausgestaltet sein^ wobei anstatt 

1002 ein Befehl von 1101 adressiert wird. Die Adressierung ist 
dabei abhSngig vom Befehl selbst und von einem Statusregister. 
Insoweit entspricht der Aufbau einer "von Neumann" Maschine, 
rait dem Unterschied, 

(a) der universellen Einsetzbarkeit/ also den Sequenzer nicht 
zu verwenden (vgl. Fig. 10) 

(b) dafi das Statussignal nicht von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden muii/ sondern 
von einem beleibigen anderen Rechenwerk stamnien kann (vgl. 
Fig., lib). 

Wichtig ist, daii der Sequenzer Sprunge, insbesondere auch 
bedingte Spriinge/ innerhalb von 1001 ausfUhren kann. 

Ein weiteres zusStzliche's oder alternatives Verfahren (Fig. 
12) zum Aufbau von Sequenzern innerhalb von VPUs ist die 
Verwendung der internen Datenspeicher (1201, 0901) zum 
Speichern der Konf igurationsinformation fur eine PAE oder eine 
Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers 
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auf eineii Konfigufationseingang Oder Dateneingang einer PAE 
Oder mehrer PAEs geschaltet (1202) . Die Adresse (1203) . fUr 
1201 kann dabei von derselben PA£/denselben PAEs Oder einer 
Oder mehreren beliebigen anderen generiert werden. 

Bei diesem Verfahren ist der . Sequenzer nicht fest 
implementiert, sondern wird durch eine PAE Oder eine Gruppe 
von PAEs nachgebildet. Die internen Speicher konnen Programme 
aus den externen Speichern nachladen (vgl. erfindungsgem^Bes 
Speichersystem) . 

Zur Speicherung von lokalen Oaten (z.B. £Ur iterative 
Berechnungen uhd als Register fUr einen Sequenzer) wird die 
PAE mit einem zusatzlichen Registersatz versehen, dessen 
einzelne Register entweder durch die Konfiguration bestimmt, 
zur ALU gefuhrt oder von der ALU beschrieben werden; oder 
durch den Befehlssatz eines implement ierten Sequenzers frei 
benutzt werden k5nnen (Register Mode) . Ebenfalls kann eines 
der Register als Akkumulator (Akkumulator Mode) verwendet 
werden. Wird die PAE als vollwertige Maschine verwendet, ist 
es sinnvoll eines der Register als Adresszahler fUr externe 
Datenadressen zu verwenden* 

Zur Verwaltung von Stacks und Akkumulatoren aufierhalb der PAE 
(z.B. in den erf indungsgemafien Speichern) wird das bereits 
beschriebene RDY/ACK REQ/ACK Synchronistionsmodell verwendet. 

PAEs nach dem Stand der Technik (vgl. PACT02) sind zur 
Verarbeitung von bit-weisen Operationen schlecht geeignet, 
sofern die integrierte ALU bit-Operationen nicht besonders 
unterstutzt, bzw. schmal (1-, 2-, 4-bit breit) ausgelegt ist. 
Die Verarbeitung von einzelnen Bits oder Signalen kann 
effizient gewahrleistet, indent der ALU-Kern durch einen FPGA- 
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Kern (LC) ersetzt wird, der konf igurierbar logische 
Operacidneh durchfUhrt; D^r..^^ ist dabei in seiner Fuiiktion' ; 
und internen Vernetzung frei konf igurierbar. Es kbnnen LC nach 
dem Stand der Technik eingesetzt werden. FiXr bestimmte 
Operationen ist es sinnvoll dem LC intern einen Speicher 
zuzuordnen. Die Inter face-Baugruppen zwischen FC und dem 
' ■ Bussystem des Arrays werden nur gerihgfUgig an den FC 

angepafit/ bleiben aber grundlegend bestehen. Zur flexibleren 
Gestaltung des Zeitverhaltens des FC ist es jedoch sinnvoll, 
die Register in den Interf ace-Baugruppen abschaltbar zu 
gestalten. 
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■ Fiquren v 

In Fig. 4a sind einige. grundlegenden Eigenschaften des 
erfindungsgemafien Verfahrens dargestrellt : 

Die Module des Types A sind zu einer Gruppe zusammengefaBt und 
besitzen ara.Ende einen bedingten Sprung, entweder nach Bl oder 
B2. An dieisef Position (0401) ist ein Uihkohf iguratiohspunkt 
eingefUgt,. da es sinnvoll ist die Zweige des bedingten 
Sprunges als jeweils eine Gruppe zu betrachten (Fall 1). 
warden dagegen.bWide Zweige von. B (Bl .und.B2) zusa.tzlich 
zusammen mit A auf den Zielbaustein passen (Fall 2), w^re es 
sinnvoll nur einen Umkonfigurationspunkt bei 0402 einzuftlgen/ 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkeit erhoht. Beide Zweige (Bl 
und B2} springen bei 0402 nach C. 

Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 
4b scheioatisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine. Konf iguration dar. 
Die gestrichelten Pfeile bei eihem ZeilenwechseT zeigen eine 
Umkonfiguration an. Sn ist eine. datenspeichernde Zelle, von 
beliebiger Ausgestaltung (Register, Speicher, etc.);. Dabei ist 
Sr.I ein Speicher, der Daten entgegennimmt und S^O ein Speicher 
der Daten ausgibt. Der Speicher Sn ist fiir gleiche n jeweils 
derselbe> I und 0 kennzeichnen die Datentransf errichtung. 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind 
dargestellt. 

Das Modell in Fig. 4 entspricht einem Datenf lufimodell, jedoch 
mit der wesentlichen Erweiterung des Umkonf igurationspunkts 
und der damit erreichbaren Parti tionierung des Graphen, wobei 
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die zwischen den Parti tionen Ubertrageneri Dateh 
zwischengespeichert werden. ; 

Im Modell yon Fig. 5a wird aus einer- beliebigen Graphenmenge 
und -Konstellation (0501) selektiv ein Graph Bn aus einer Menge 
von Graphen B aufgerufen. Nach der Ausfiihrung von B gelangen 
die Daten nach 0501 zuriick. 

Wird in 0501 ein ausreichend grofler Sequencer (A) 
implementiert, ist mit dem Modell eih den typischen 
Pr.ozessoreh sehr ahnliches Prinzip implement ierbar. Dabei 
gelangen 

1. Daten in den Sequenzer A, die dieser als Befehle dekodiert 
und entsprechend dem "von Neumann"-Prinzip darauf reagiert; 

2. Daten in den Sequenzer A,, die als Daten betrachtet werden 
und an ein fest konf iguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph B stellt selektierbar ein besonderes Rechenwerke 
und/oder besondere Opcodes ftir bestiromte Funktionen zur 
VerfUgung und wird alternativ zur Beschleunigung von C 
verwendet. Beispielsweise kann Bl eih optimierter Algorithmuis 
zu Berechnung von.Matrixmultiplikationen sein, wahrend B2 
einen FIR-Filter und B3 eine Mustererkennung darstellt . 
Entsprechend eines Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. encsprechende Graph B aufgerufen. 

Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbolisiert wird. 

Wahrend in den Umkonf igurationspunkten von Fig. 4 vorzugsweise 
groBere Speicher zum Zwischenspeichern der Daten eingeftigt 
werden, ist eine einfache Synchronisation der Daten in den 
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Umkonf igurationspunkten' von Fig. 5 aiisreichend, da der 
Daitenstrom, vorzugsweise als ganzer durch den; Graphen B. iauft 
und der Graph B nicht weiter partitioniert ist; dadurch ist 
das Zwischenspeichern der Daten UberflOssig. 

In Fig. 6a sind verschiedene Schleifen dargestellt. Schleifen 
'kcJnrien grundsatzlich auf drei Arten behandelt warden: 

1. Hardware-Ansatz: Schleifen werden vollstdndig ausg^walzt 
auf die Zielhardware abgebildet (0601a/b) . Wie bereits 
eriautert' ist/dies nur bei wenigen Schleifenarten ?a6glich. . 

2. Datenflufi-Ansatz: Innerhalb des Datenflufies werden 
Schleifen tiber mehrere Zellen hinweg aufgebaut (0602a/b) . Das 
Ende der Schleife wird auf den Schleif enanfang ruckgekoppelt . 

3. Sequenzer-Ansatz: Ein Sequenzer mit minimalera Befehlssatz 
fOhrt die Schleife aus (0603a/b) . Dabei sind die Zellen der 
Zielbausteine so ausgestaltet, dafi sie den entsprechenden 
Sequenzer beeinhalten (vgl. Fig. lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausfuhrung ggf. optimiert werden: 

r.Unter Veirwendung von Optimierungsmethodeh nach deni Stand der 
Technik lafit sich h^ufig der Schleif enrumpf, also der 
wiederholt auszufiihrende Teil, dadurch optimieren, dafi 
bestimmte Operationen aus der Schleife entfernt werden und vor 
Oder hinter die Schleife gestellt werden (0604a/b) . Dadurch 
wird die Menge der zu sequencenden Befehle erheblich 
reduziert- Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfuhrung der Schleife du.rchlaufen. 
2. Eine weitere Optimier'ungsmdglichkeit ist das Teiien von 
Schleifen in mehrere kleinere oder kUrzere Schleifen. Dabei 
findet die Teilung derart statt, dafi mehrere parallele oder 
mehrere sequentielle (0605a/b) Schleifen entstehen. 
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Fig. 7 verdeutlicht die Implementierung einer Rekursion. Dabei 
werden dieselben Ressourcen (0701) ' in Form von Zellen fUr jede 
Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden 
Rekursionsebene (1-3) werden beim AnflDau (0711:) in einen nach 
dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. 
Gleichzeitig mit dem Abbau (0712 r) der Ebenen wird der Stack 
abgebaut. 

In Fig. 14 wird das Virtual-Machine-Modell dargestellt. Aus 
. einem externen Speicher werden Datep (1401) und zu den Daten • 
geharende Zustande (1402) in eine VPU (1403) gelesen. 
1401/1402 werden tiber eine von der VPU generierte Adresse 1404 
selektiert.. Innerhalb der VPU sind PAEs zu unterschiedlichen 
Gruppen zusammengef afit (1405, 1406, 1407). Jede Gruppe besitzt 
einen datenverarbeitenden Teil (1408), der lokale impilzite 
Zustande (1409) besitzt, die keinen Einflufi auf die 
umliegenden Gruppen besitzt. Daher werden dessen Zustande 
nicht auflerhalb der Gruppe weitergeleitet . Er kann jedoch von 
den externen Ziistanden abhangig sein. Ein weiterer Teil (1410) 
generiert Zustande, die EinfluA.auf die umliegenden Gruppen 
haben . 

Die Daten und Zustande der Ergebnisse werden in einen weiteren 
Speicher (1411/ 1412). abgelegt.Gleichiei tig. kann die Adresse 
von Operanden (14004) als Pointer gespeichert (1413) werden. 
Zur zeitliche Synchronisation kann 1404 uber Register (1414) 
gefUhrt werden. 

In Fig. 14 ist zur Verdeutlichung ein einf aches Modell 
dargestellt. Die Vernetzung und Gruppierung kann wesentlich 
komplexer sein als in diesem Modell. Ebenf alls kbnnen Zustande 
und Daten auch an weitere Module als den Nachfolgenden 
Ubertragen werden. Es ist mdglich, dafl Daten an andere Module 
Ubertragen werden als die Zustande, Sowohl Daten als auch 
Zustande eines bestimmten Moduls kbnnen von laehreren 
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unte'rschiedlichen Moduleri enipfangen werden. Innerhalb einer 
Griippe \kann 1408^ 1409 uhd. 1410 vorandien sein. Abhangig vom 
Algorithmus konnen au'ch einzelne Telle fehlen (z.B. 1410 und 
1409 vorhanden, 1410 jedoch nicht) . " 

In Figur 15 ist dargesteilt wie aus einem Verarbeitungsgraphen 
Teilappiikationen extrahiert werden. Dabei wird der Graph s6~ 
zerlegt, dafi iange Graphen sinnvoll zerteilt werden und in 
Teilappiikationen (H^A^C/K) abgebildet werden. Nach SprUngen 
: werden neue Teilgraphen gebildet (C/K) wobei fUr jeden Sprung, 
ein jgetrennter Teilgraph gebildet wird. 
Jeder Teilgraph ist in dem ULIW-Modell von der CT (vgl. 
PACTIO) getrennt ladbar.. Wesentlich ist, daB Teilgraphen durch 
die Mechanismen in PACTIO verwaltet werden konnen. Dazu gehbrt 
insbesondere das Intel ligente Konf igurieren, Aus fUhr en/ St art en 
und Loschen der Teilappiikationen. 

1503 bewirkt das Laden oder Konf igurieren von Teilapplikation 
A, wahrend Teilapplikation K ausgefuhrt wird. Dadurch ist 

aj Teilapplikation A zum Ausftlhrungsende yon Teilapplikation K 
bereits komplett in die PAEs konf iguriert, sofern die PAEs 
mehrere Konf igurationsregister aufweisen; 

b) Teilapplikation A zum AusfOhrungsende von Teilapplikation IC 
; bereits 'in . die GT geladen,.. sofern die PAEs nur ein 
Konfigurationsregister aufweisen. 

1504 startet die Ausfiihrung von Teilapplikation K. 

D.h. zur Laufzeit werden die nachsten benotigten Programmteile 
wahrend der Abarbeitung der aktuellen Programmteile unabhangig 
geladen. Dadurch ergibt sich ein wesentlich ef f izienterer 
Umgang mit den Programmcode, als bei tlblichen Cache- 
Mechanismen. 

Bei Teilappiikationen A wird eine weitere Besonderheit 
dargesteilt. Prinzipiell ware es denkbar beide mOglichen 
Zweige (C/K) des Vergleiches vorzukonf igurieren. Angenonmen, 
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die Zahl der zur Verftigung stehenden freien 
Konfigurationsregister; reicht dazu: hiqht ans, wird -der; ; 
wahrscheinlichere der Zweige . konf iguriert (1506) ..Das spart 
zudem Konfigurationszeit . Bei Ausfiihrung des nicht 
konfigurierten Zweigs, wird (da die Konf iguration noch nicht 
in. die Konfigurationsregister geladen ist) die. 
Programmausf iihrung unterbrochen, bis der Zweig konf iguriert 
ist. 

Grundsatzlich ist . es m6giich :auch nicht konf iguriert.e 
Teilapplikationen auszufOhren (1505), diese miissen dann wie 
zuvor beschrieben vor der AusfUhrung geladen werden. 

Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen 
ID angestofien werden • Damit konnen Teilapplikationen abhSngig 
vom Zustand des Arrays vorgeladen werden. 

Das ULIW-Modell unterscheidet . sich im Wesentlichen vom VLIW- 
Modell, indent es 

1. Das Routing der Daten mit beinhaltet 

2. GrOflere Instruktionswbrter bildet* 

Ebenfalls kann das beschriebene Verfahren der Partitionierung . 
von Compilern fur.heutige Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso eingesetzt werden. Wird dann eine 
Einheit (CT) nach PACTIO zur Steuerung des Befehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleunigt 
werden. 

bazu werden "normale" Programme entsprechend in 
Teilapplikationen partitioniert . GemSB PACTIO werden Verweise 
auf magliche nachfolgende Teilapplikationen eingefuhrt (1501, 
1502). Dadurch kann eine CT die Teilapplikationen bereits in 
den Cache vorladen bevor sie benotigt werden. Bei Spriingen wird 

- 39 / 96 - 



wo 00/77652 



PCT/DEOO/01869 



nur die angesprungen Teilappiikation ausgeiEUhrt, die andere(n) 
werden spater durch neue Teilapplikationen Ubefschrieben. 
Neben dem intelligenten Vorladen hat das Verfahren den 
weiteren Vorteil, dafi die Grofie der -Teilapplikationen helm 
Laden bereits bekannt ist. Dadurch kbnnen optimale Bursts beim 
Zugriff auf die Speicher von der CT ausgefUhrt werden, was den 
Speicherzugriff wiederum erheblich beschleunigt. 

Figur 16 zeigt den Aufbau eines Stack- Prozessors, Durch das 
:PAE -Array (1601) werden Protokolle generiert urn auf einen als 
LIFO konf igurierten Speicher (1602) zu schreiben oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben und 
REQ/ACK-Protokoll zum Lesen vewendet. Die Vernetzung und 
Betriebsmodi werden von der CT (1603) konfiguriert. 1602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslagern. 

Eine Reihe der PAEs sollen in diesem Beispiel als Register- 
Prozessor arbeiten (Figur 17) . Jede PAE besteht aus einem 
Rechenwerk (1701) und einem Akkumulator (1702) auf den das 
Ergebnis von 1701 rUckgekoppelt (1703) ist. Damit stellt in 
diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. 
Eine PAE . (1705)" liest und schreibt die Daten in den als 
Standardspeicher konfiguriert en RAM (1704). Eine weitere PAE 
(1706) generiert die Registeradressen. 

Oftmals ist es sinnvoll eine getrennt PAE ..zum Lesen der Daten 
zu verwenden. Dann wtirde 1705 nur schreiben und die PAE 1707 
lesen. Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generiereh der Leseadressen einzufuhren. 
Es ist nicht zwingend notwendig getrennte PAEs zum Generieren 
der Adressen zu verwendet, Oftmals sind die Register implizit 
und konnen dann als Konstanten konfiguriert werden von den 
datenverarbeitenden PMs gesendet werden. 
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Die Verwendung von Akkumulator-Prozessoren for eirien Register- 
Prozessor ist beispieishaft. Ebenso kanhen zuid.Aufbau vori 
Registerprozessoren PAEs ohne Akkumulator verwendet werden*. 
Die in Figur 17 gezeigte Architektur kann zur Ansteueruhg von 
Registern als auch zum Ansteuern einer Load/Store-Einheit 
dienen. 

Bei der Verwendung als Load/Store-Einheit ist es fast zwingend 
notwendig einen exterrien RAM (1709) nachzuschalten, sodafi 1704. 
nur einen tempor^kren Ausschnitt aus 1709, quasi alls Cache, 
darstellt^. 

Auch bei der Verwendung von 1704 als Register-Bank ist es 
teilweise sinnvoll einen externen Speicher nachzuschalten. 
Dadurch konnen PUSH/POP Operationen nach dem Stand der Technik 
durchgefUhrt werden, die den Registerinhait in einen Speicher 
schreiben oder aus diesem Lesen. 

In Figur 18 ist als Beispiel eine komplexe Maschine abgebildet 
bei der das PM-7Vrray (1801) einerseits einen Load/Store- 
Einheit {1802) mit nachgeschaltetem RAM (1803) ansteuert und 
gleichzeitig eine Register-Bank (1804) mit nachgeschaltetem 
RAM (1805) aufweist. 1802 und 1804 konnen jeweils von einer 
PAE Oder einer beliebigen Gruppe von PAEs angesteuert werden. 
Die Einheit wird gemali dem VPU-Prinzip von einer CT (1806) : 
gesteuert. 

Wichtig ist, dafi zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerung kein 
wesentlicher Unterschied besteht. 

Die Figuren 19,20,21 zeigen einen erf indungsgemafien internen 
Speicher, der zugleich eine Kommunikat ions einheit mit externen 
Speichern und/oder Peripherie darsteilt. Die einzelnen Figuren 
zeigen unterschiedliche Betriebsarten desselben Speichers. Die 
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Betriebsarten, sowie einzelne Detaileinstellungen warden dabei 
korifiguriert." 

Figur i9a zeigt einen erfindungsgem3:fien Speicher im 
"Register/Cache" Modus. Im erfindungsgemafien Speicher (1901) 
sind Datenworte eines fiir gewohnlich groBeren und langsameren 
externen Speichers (1902) abgelegt. 

Der Datenaustausch zwischen 1901, 1902 und den uber einen Bus 
(1903) angeschlossenen PAEs (nicht dargestellt) findet dabei 
wie folgt statt, wobei unter zwei Betriebsarten unterschieden 
wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 gelesenen Oder 
gesendeten Daten werden in 1901 mitteis eines Cache-Verfahrens 
gepuffert, Dabei )cann jedes be)cannte Cache-Verfahren zum 
Einsatz kommen* 

B) Mitteis einer Load/Store-Einheit werden die Daten 
bestimmter Adressen zwischen 1902 und 1901 Ubertragen. Dabei 
werden bestimmte Adressen, sowohl in 1902 als auch in 1901 
vorgegeben, wobei fOir 1902 und 1901 gewohnlicherweise 
unterschiedliche Adressen verwendet werden. Die einzelnen 
Adressen kennen dabei durch Konstante Oder durch Berechnungen 
in PAEs erzeugt werden. In dieser Betriebsart arbeitet der 
Speicher 1901 als Registerbank. 

Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei 
beiiebig sein und hangt lediglich von den jeweiligen 
Algorithmen der beiden Betriebsarten ab. 
In 19b ist die entsprechende Maschine als Blockdiagranm 
dargestellt. Dem Bus zwischen 1901 und 1902 ist eine 
Steuereinheit (1904) zugeordnet, die je nach Betriebsart als 
Load/Store-Einheit (nach dem Stand der Technik) oder als 
Cache-Kontroller (nach den Stand der Technik) agiert .* Dieser 
Einheit kann bei Bedarf eine Speicherverwaltungseinheit (MMU) 
(1905) mit AdressObersetzung und -Uberprtifung zugeordnet 
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wisrden. Sowohl L904 als aiich 1903 kann von den PAEs 
. angesteueft werden. So wird beispielsweise die. 
progranuniert, die Load/Store Adressen gesetzt oder ein. Cache- 
Flush ausgeldst. 

Figur 20 zeigt den Eihsatz des Speichers (2001) im FIFO-Modus, 
in welchem nach dem bekannten FIFO-Prinzip Datenstrame. 
entkoppelt werden. Der typische Einsatz ist in einem Schreib- 
(2001a) Oder Leseinterface (2001bl . Dabei werden Daten . 
zwischen den PAEs, die an dem internen Bussystem (2002) 
. angeschiossen sind und dem Peripheriebus (2003) zeitlich 
entkoppelt. 

Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, 
die den Schreib- und Lesezeiger des FIFOs abhangig von den 
Busoperationen von 2003 und 2002 steuert. 

In Figur 21 ist das Arbeitsprinzip der erf indungsgemaflen 
Speicher im Stack-Modus dargestellt. Ein Stack ist (nach dem 
Stand der Technik) ein Stapelspeicher, dessen 
oberstes/unterstes Element das gerade Aktive ist, Daten werden 
immer oben/unten angefUgt, ebenso werden die Daten oben/unten . 
entfernt. D.h., das zuletzt geschriebene Datum ist. auch das, 
welches zuerst gelesen wird {Last In First Out) . Ob ein Stack 
nach oben oder unten wachst, ist unbedeutend und 
implementierungsabh^ngig. Im folgenden Ausfuhrungsbeispiel 
werden Stacks betrachtet, die nach oben wachsen. 

Dabei sind die aktuellsten Daten im internen Speicher 2101 
gehalten, der aktuellste Eintrag (2107) befindet sich ganz 
oben in 2101. Alte Eintrage sind auf den externen Speicher 
2102 ausgelagert. Wachst der Stack weiter, reicht der Platz im 
internen Speicher 2101 nicht mehr aus • Bei Erreichen einer 
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bestimmten Datenmenge, die durch eine (frei wahlbare) Adresse 
in 2ibl Oder einen (frei wahlbareh) Werit in einem 
Eintragszahler reprSsentiert sein kann, wird ein Teil von 2101 
als Block an das aktuellere Ende (21:03) des Stacks in 2102 
geschrieben. Dieser Teil sind die ^Itesten und somit am 
wenigsten aktuellen Daten (2104). Danach werden die 
verbleibendeh Daten in 2101 so verschoben, daB die nach 2102 
kopierten Daten in 2101 mit den verbleibenden Daten (2105) 
Oberschrieben werden und somit geniigend freier Speicher (2106) 
fUr neue Stackeintrage entsteht. 

Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) 
Punkt die Daten in 2101 so verschoben, dafi hinter den altesten 
und unaktuellsten Daten freier Speicher entsteht. In den 
freigewordenen Speicher wird ein Speicherblock aus 2102 
kopiert, der dann in 2102 geldscht wird. 

Mit anderen Worten reprasentieren 2101 und 2102 einen einzigen 
Stack/ wbbei die gerade aktuellen Eintrage in 2101 liegen und 
die aiteren und weniger aktuellen in 2102 ausgelagert sind. 
Quasi stellt das Verfahren einen Cache fUr Stacks dar. Da die 
Datenbldcke vorzugsweise per Blockoperationen Obertragen 
werden, kann der Datentransfer zwischen 2101 und 2102 in den 
schnellen Burst-Betriebsarten moderner Speicher (SDRAM; 
RAMBUS, etc.) ausgefUhrt werden. 

Es soil nochraals erwShnt werden, da6 im Aus fiihrungsbei spiel in 
Fig. 21 der Stack nach oben wachst. Sollte der Stack nach 
unten wachsen (eine haufig verwendete Methode), sind die 
Positionen oben/unten und die Richtungen in die die Daten 
innerhalb eines Speichers bewegt werden genau vertauscht. 

Sinnvollerweise wird der interne Stack 2101 als eine Art 
Ringspeicher ausgestaltet . Die Daten an einem Ende des Ringes 
werden zwischen PAEs und 2101 ubertragen und am anderen Ende ' 
des Ringes zwischen 2101 und 2102. Dadurch entsteht der 
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Vorteil, daB eihfach Daten zwischen 2101 und 2102 verschoben 
werden kGnnen, ohrie Einfluii auf die internen Adresseh in 2101 
zu haben. Lediglich die Positionszeiger der unteren und oberen 
Daten und der FUllstandszahler mlissen jeweils angepaBt werden. 
Die DatenUbertragung zwischen 2101 und 2102 kann durch die 
bekannten Ringspeicher-Flags "beinahe* voll (almost full) / 
vol! (full)" und "beinahe leer (almost empty) / leer (empty)" 
ausgelost werden. 

Die notwendige Hardware ist als Blockschaltbild in Fig 21b 
dargesteilt. Dem internen Stack 2101 ist eine Einheit (2110) 
zur Verwaltung der Zeiger und Zahler zugeordnet. In den Bus 
(2114) zwischen 2101 und 2102 ist eine Einheit (2111) zur 
Steuerung der Datentransfers eingeschleif t. Dieser Einheit 
kann eine MMU (2112) nach dem Stand der Technik mit den 
entsprechenden PrUfsystemen und AdressUbersetzungen zugeordnet 
werden . 

Die Verbindung zwischen den PAEs und 2101 wird Uber das 
Bussystem 2113 realisiert. 

In Figur 22 ist ein Beispiel fUr das Umsortieren von Graphen 
gezeigt. Die linJce Spalte (22. .a) z^igt eine iinoptimierte. 
Anordnung von Bef ehlen. Dabei- wferden die Pointer A; (2207a) und 
B (2211a) geladen. Jeweils bereits einen Takt spater werden 
die Werte der Pointer benotigt (2208a, 2212a) . Diese 
Abhangigkeit ist zu kurz um effizient ausgefUhrt zu werden, da 
zum Laden aus dem Speicher eine bestimmte Zeit (2220a^ 2221a) 
benbtigt wird. Durch umsortieren der Befehle (22.. b) werden 
die Zeitraume maximal vergrbfiert (2220b, 2221b). Obwohl in 
22.10 und in 2208 der Wert des Pointers von A ben5tigt wird, 
wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur 
Berechnung von B gewonnen wird. Es ist mdglich Berechnungen 
die von den Pointern unabhangig sind (2203,2204,2206) 

- 45 / 96 - 



wo 00/77652 



PCT/DEOQ/01869 



beispieisweise zwischen 2211 unci 2212 einzufUgen Um mehr Zeit 
. f iir die Speicherzugriffe. zu erhalten. Ein Compiler oder. . . . 
Assembler kann hier anhand von Systemparametern, die die 
Zugriffzeiten reprSsentieren, die entsprechende Optimieriing 
vornehmen. 

Figur 23 zeigt einen' Sbnderfall der Figureh 4-7. HSufig 
besteht ein Algorithmus, auch innerhalb . von Schieifen/ aus 
Datenf luBteilen uiid sequentielleh Teilen. Derartige Strukturen 
kdhnen gem^i^ dem beschriebehen. Verfahren uiiter . ilinsatz ^ in ' 
PACT07 beschriebenen Bussystems effizient aufgebaut werden. 
Hierzu wird das RDY/ACK-Protokoll des Bussystems zunachst um 
das erfindungsgemafie REQ/ACK-Protokoll erweitert. Dadurch 
konnen gezielt Registerinhalte einzelner PAEs von einer Oder 
mehreren anderen PAEs Oder von der CT abgefragt warden. 
Eine Schleife (2305) wird nun in mindestens zwei Graphen 
zerlegt/ einen ersten (2301) ^ der den Datenf luBanteil 
reprasentiert und einen zweiten (2302)^ der den sequentiellen 
Anteil abbildet. 

Ein bedingter Sprung w^hlt zwischen den beiden Graphen. Das 
besondere ist nun, daR 2302 den interhen Zustahd von 2301 
kennen zur AusfUhrung benotigt und umgekehrt 2"301 den Zustand 
von 2302 kennen muB. 

Dies wird realisiert, ihdem der Zustand genau einraal, nSmlich 
in den Regi stern der PAEs des performanteren Datenf luBgraphen 
(2301) gespeichert wird. 

Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die 
Zustande der jeweiligen Register mittels des Bussystems aus 
PACT07 aus (2303) . Der Sequenzer fUhrt seine Operationen aus 
und schreibt alle geanderten Zustande in die Register 
(wiederum Uber das Bussystem nach PACT07) zuruck (2304). 
Abschlieflend soli angemerkt werden, dafi es sich bei den 
besprochenen Graphen nicht unbedingt um enge Schieifen (2305) 
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hahdeln mufi. Das Verfahren ist generell auf jeden 
- iTeiialgorithmus verweridbar, der innerhalb eines 

Programmablaufes mehrfach ausgefiihrt wird (reentrant) und 
wahlweise entweder sequentiell oder'parallel (datenf lufiartig) 
abgearbeitet wird, wobei die Zustande zwischen dem 
sequentiellen und dem parallelen Teil transferiert werden 
mtiissen. 

Die Waverekonf igurierung bietet erhebliche Vorteile bei der 
Geschwindigkeit der Umkonf iguracion, dnsbesondere bei 
einfachen sequentiellen Operacionen. 

Eine grundlegende Besonderheit dieser Verarbeitungsmetho.de 
ist, daB der Sequenzer auch als externen Mikroprozessor 
ausgestaltet sein kann. Das bedeutet dafi ein Prozessor uber 
die Datenkanale mit dem Array verbunden ist und lokale, 
temporare Daten iiber Bussysteme mit dem Array austauscht. 
Samtliche sequentielle Telle eines Algorithmus die nicht in 
das Array aus PAEs abgebildet werden kCnnen werden auf dem 
Prozessor abgewickelt. 

Es mufi zwischen drei Bussystemem unterschieden werden: 

1. Datenbus, der den Austausch der verarbeiteden Daten 

zwischen VPU und Prozessor regelt. 
.2. Registerbus, der den Zugriff auf die Register der VPU 

erm6glicht und den somit den Datenaustausch (2302, 2304) 
. zwischen 2302 und 2301 gewahrleistet . 

3. Konf igurationsdatenbus, der das Array der VPU konf iguriert . 

In Figur 24 sind die Auswirkungen zeitlich dargestellt. 
Einfach schraffierte Fiachen stellen datenverarbeitende PAEs 
dar, wobei 2401 PAEs nach der Umkonf iguration und 2403 PAEs 
vor der Umkonf iguration zeigen. Doppelt schraffierte Flachen 
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(2402) zeigeh PAEs die gerade umkpnfiguriert werden Oder aiif 
. ' die Umkpnfig.uration' warteri. . V 

Figur 24a zeigt den Einflufi der Wave-Rekonfigurierung auf 
einen einfachen sequentiellen Algorithmus . Hier ist es 
mogliche exakt die PAEs umzukonf igurieren, denen eine neue 
Aufgabe zugeteilt wird. Da in jedera Takt eine PAE eine neue . 
Aufgabe erhait kann dies eff izient/ namlich zeitgleich 
durchgefiihrt werden. 

Beispieisweise dargestellt ist eine Reihe von PAEs aus der 
Matrix aller PAEs. einer VPU. . Angegeberi sind die Zustahde in 
den Takten nach Takt t mit jeweils einem Takt Verzogerung. 

In Figur 24b ist die zeitliche Auswirkung der Urakonf iguration 
von grofien Teilen dargestellt. Beispieisweise dargestellt ist 
eine Menge von PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit einer unterschiedlichen Verzogerung 
von jeweils mehreren Takten. 

W^hrend zun^chst nur ein kleiner Teil der PAEs umkonfiguriert 
wird Oder auf die Umkonf iguration wartet, wird diese Fl^che 
mit zuhehmender Zeit grdBer, bis alle PAEs umkonfiguriert 
sind. Das grbSer werden der Fiache bedeutet/ da&, bedingt 
.durch die zeitliche Verz5gerung der Urakonf iguration immer mehr 
PAEs auf die Umkonf iguration warten . (2402) . Dadurch geht.: 
Rechenieistung verloren. 

Es wird daher vorgeschlagen ein breiteres Bussystem zwischen 
der CT (insbesondere des Speichers der CT) und den PAEs 
einzusetzen, das genUgend Leitungen zur VerfUgung stellt, um 
innerhalb eines Taktes mehrere PAEs zugleich 
. umzukonf igurieren. 

Figur 25 verdeutlicht die Skalierbarkeit der VPU-Technologie . 
Die Skalierbarkeit geht im Wesentlichen aus dem Ausrollen 
eines Graphens hervor, ohne daB eine zeitliche Abfolge 
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einzeine Teilappiikationen trennt, Ais Beispiel ist der 
Algorithmus aus . Figur 4 gewahlt. In; Figur 2.5a warden die 
einzelnen Teilgraphen zeitlich nacheinander auf die VPU 
Ubertragen, wobei entweder Bi oder Bj geladen wird. In Figur 
25b werden alle Teilgraphen auf eine Menge von VPUs ubertragen 
und mit Bussystemen untereinander verbunden. Dadurch konnen 
groBe Datenmengen ohne den negativen EinfluB des 
Umkonfigurierens ieistungsfahig abgearbeitet werden, 

Figur. 26 zeigt eine Schaltung zur Beschleunigung der (Um-). 
konfigurationszeit von PAEs» Gleichzeitig kann die Schaltung 
zur Verarbeitung von sequentiellen Algorithmen verwendet 
werden. Das Array von PAEs (2605) ist in mehrere Telle (2603) 
partitioniert • Jedem Tell ist eine eigenstandige Einheit zur 
(Um-) konf iguration (2602) zugeordnet, Diesen Einheiten 
Ubergeordnet ist eine CT (2601) nach dem Stand der Technik 
(vgl. PACTIO), die wiederum an eine weitere CT oder an einen 
Speicher angeschlossen ist (2604) . Die CT lad die Algorithmen 
in die Konf igurationseinhei ten (2602) , Die 2602 laden 
selbstandig die Konf igurationsdaten in die ihnen zugeordneten 
PAE^. 

In Figur 27 ist ein Aufbau einer. Konf igurationseinheit 
dargestellt. Kern der Einheit ist ein Sequenzer (2.701) der 
eine Reihe von Befehlen beherrscht. 
Die wesentlichen Befehle sind: 
wait <trg#> 

Warten auf das Eintreffen eines bestimmten Triggers aus dem 
Array, der angibt, welche ndchste Konf iguration geladen werden 
soli. 

lookup <trg#> 

Gibt die Adresse des durch einen eintref fenden Trigger 
aufgerufenen Unterprogramms zuruck. 
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• jxnp- <adr> ■; " \ . 

Sprung nach Adresse 

call <aclr> 

Sprung nach Adresse. Riicksprungadresse wird auf dem Stack 
gespeichert 

jmp <cond> <adr> 

Bedingter Sprung nach Adresse 

call <cond> <adr> 

Bedingter Sprung nach Adresse. RUcksprungadresse wird auf dem 
Stack gespeichert 

ret 

RUcksprung auf die auf dem Stack gespeicherte 
RUcksprungadresse 

mov <target> <source> 

Obertragt ein Datenworc von Quelle (source) an ein Ziel 
(target). Quelle und Ziel konnen jeweiis in einem Speicher 
Oder eine Peripherieadresse sein. / 

Im wesentlichen sind die Befehle aus PACTIO, d.h. der 
Beschreibung der CT bekannt. Wesentlicher Unterschied in der 
Impleraentierung der 2602 ist^ daB nur sehr einfache Befehle 
zur Datenverwaltung verwendet werden und kein vollstandiger 
Mikrokont roller verwendet wird. 

Eine bedeutende Erweiterung des Befehlssatzes ist der "pabm"- 
Befehl zum Konf igurieren der PAEs. Es stehen zwei Befehle 
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(pabnuT/ pabmm) zur VerfUgung, die folgendermasseh aufgebaut 

■sind:- .• •; • ' ' '^■■'[ ':, ' 

a) 



pabmr 


regno 


count " 


pa_adro 


pa_dtao 


pa_adri 


pa_dtai . 






pa_adrcour.t 


pa_dtacount 




pabmm \ 


000 


count 


offset 


pa_adro 


pa_dtao 


pa_adri 


pa_dtai 






pa_adr count 


pa_dtacount 



b) 



pabmr 


regno j count 


memref 



pabmm 
offset 



000 



count 



memref 



Die Befehle kopieren einen zugeordneten Block von PAE-Adressen 
und PAE-Daten vom Speicher zu dem PAE-Array. Durch <count> ist 
angegeben, wie grofi der zu kopierende Datenblock ist. Der 
Datenblock ist entweder direkt an den Opcode angehSngt (a) 
Oder durch Angabe der erste Speicheradresse <memref> ^ 
referenziert (b) . 
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Jede pa_acirft-pa_dtan-Zeile stellt eihe Konfiguration fUr eine 
PAE dar. Dabei gibt pa_^adrn die Adriasse;und pa^dtan das 
Konfigurationswort der PAE an. 

Aus PACTIO ist das RDY/ACK-REJ Protokoll bekannt. Werden die 
Konf igurationsdaten von einer PAE angenoininen, quittiert die 
• PAE die gesendeten Daten mit einem ACK. Kahn dagegen eine PAE 
die Konf igurationsdaten nicht annehmen, da sie sich nicht in 
einem umkonf igurierbaren Zustanid befindet, . sendet sie ein REJ 
zurUck. badurch: schlagt die Konf iguratiph des Teilalgorithmus 
fehl. 

Die Stelle mit REJ zurUckgewiesenen pa_adrn-pa_dtan-Zeile wird 
gespeichert. Die Befehle werden zu einem sp^teren Zeitpunkt 
erneut aufgerufen (vgi, PACTIO, FILMO) . Sofern der Befehl 
komplett abgearbeitet wurde, d.h. es trat kein REJ auf , fUhrt 
der Befehl keine Weitere Konfiguration durch sondern 
terminiert sofort. Trat ein REJ aut, springt der Befehl direkt 
an die Stelle der zurUckgewiesenen pa_adrr,-pa_dtan-Zeile, Je 
nach Befehl wird die Stelle unterschiedlich gespeichert: 
pabmr: Die Adresse wird in dem mit < regno genannten Register 
gespeichert. 

pabram: Die Adresse wird direkt im Befehl an der Speichersteile 
.<offset>. gepeichert. 

Die Befehle sind durch DMA-Strukturen als Speicher/IO- 
Transfers nach dem Stand der Technik implement ierbar. Die DMAs 
werden durch eine Logik zum Uberwachen der eingehenden ACK/REJ 
erweitert. Die Start adresse wird durch <regno>, bzw, <offset> 
bestimmt. Die letzte Adresse des Datenblocks wird durch die 
Adresse des Bef ehls plus dessen Opcode-Lange minus eins plus 
die Anzahl der pa_adrn-pa_dtan-Zeilen berechnet. 
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Es ist kinhvoll auch die in PACT 10 beschriebene Schaltung 
durch die genahnten Befehie zu erweiterri. 



Figur 27 zeigt den Aufbau einier Einheit 2602. Die Einheit ' 
besteht aus einem Registersatz 2701 dem eine einfache ALU fUr 
Stackoperationen zugeordnet ist (2702) • Die Struktur enthait 
Adressregister. uhd Stackpointer..' Optional kann eihe 
vollwertige ALU eingesetzt werden, Ein Bussysteiu (2703) mit 
minimaier Breite verbindet Register und ALU. Die Breite ist 
dabei so bemessen, dafi einfache KontrollfluBbefehle bzw. 
einfache ALU-Operationen sinnvoll dargestellt werden kdnnen* 
Zusatzlich werden die vorab beschriebenen PABM-Bef ehle, sowie 
die Befehie nach PACTIO unterstiitzt . Register und ALU werden 
von einem Sequenzer 2706 gesteuert^ der durch AusfUhrung von 
Befehlen einen vollstandigen Microcontroller darsteilt. . 
An 2703 ist eine Einheit 2704 angeschlossen, die Trigger von 
den zugeordneten PAEs entgegennimmt und quittiert und 
gegebenenfalls ihrerseits Trigger an die PAEs sendet. 
Eingehende Trigger ;15sen dabei in dem Sequenzer 2706 einen 
Interrupt aus ode r werden durch den. WAIT-Befehl abgefragt. 
Optional an 2703 angeschlossen ist ein Interface (2705) zu 
einem Datenbus der zugeordneten PAEs um Oaten an die PAEs 
senden zu kbnnen. Beispielsweise werden die Assembler codes 
eines in den PAEs implementierten Sequenzers Uber 2705 
gesendet. Das Interface enthait sofern erforderlich einen 
Konverter zur Anpassung 'der unterschiedlichen Busbreiten. 
Die Einheiten 2701 bis 2706 sind Uber einen 
Multiplexer/Demultiplexer (2707) an ein um ein Vielfaches 
breiteres Bussystem (2708) angeschlossen, das zum Speicher 
(2709) flihrt. 2707 wird von den niederwertigen Adressen des 
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Adress-ZStackregisters angiesteuert, die hoherwertigen Adresseii 
fOhren direkt :zuin RAM . (2711) . ,Das .Bussystem 2708. fUhrt zu 
einem Interface (2709), das durch die PA-Befehle gesteuert 
wird und zuia Konf igurationsbus der PAEs ftihrt. 2708 ist bevnifit 
breit ausgelegt um moglichst viele Konf igurationsbits pro 
.Takteinheit Uber 2709 an die, PAEs senden zu konnen. Ein 
weiteres Interface (2710) verbindet deri Bus mit einer 
Ubergeordneten CT, die Konf igurations- und Steuerdaten mit 
2602 austauscht. Die . Interface 2710 und 2709 bereits mehrfach 
in PACTIO, PACT?? beschrieben worderi. . 

Wesentlich ist, dafi 2706 einen reduzierten und auf die Aufgabe 
optimierten Miniinalsbef ehlssatz beherrscht, der vor allem auf 
die PA-Kommandos, SprUnge, Interrupts und Lookup-Be fehle 
optimiert ist. Weiterhin ist das optiraierte breite Bussystem 
2708, das Uber 2707 auf ein schmales Bussystem Ubertragen wird 
von besonderer Bedeutung fUr die 
Umkonfigurationsgeschwindigkeit der Einheit. 

Figur 27a ist eine spezielle Ausgestaltung von Figur 27. Das 
Interface 2705 dient der Ubertragiing von Assemblercodes an im 
PAE-Array konf igurierte Sequenzer. I5ie Verarbeitungsleistung 
der Sequenzer hangt wesentlich von der Geschwindigkeit des 
Interfaces 2705 und dessen Speicherzugriffes ab. In Figur 27a • 
ist 2705 durch eine DMA-Funktion mit direktem Speicherzugrif f 
(2720n) ersetzt. 2720^ fUhrt eigene Speicherzugrif fe aus und 
besitzt ein eigenes Bussystem (2722,.) mit entsprechender 
Anpassung der Busbreite (2721^); dabei kann der Bus zum Laden 
von breiteh Befehlssequenzen (ULIW) verhSltnismai^ig breit 
ausf alien, sodaB als Grenzfall 2721r. komplett entfSllt. 2ur 
weiteren Steigerung der Geschwindigkeit ist der Speicher 2711 
physikalisch in 2711a und 2711bn getrennt worden. Der 
Adressraum uber 2711a und 2711br. verbleibt linear, jedoch kann 
von 2701, 2702, 2706 auf beide Speicherblbcke unabhSngig 
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gieichzeitig zugegriffen warden; 2720^ kann nur aiif 271lbn 
; ^*zugreifen• 2720n> 272ln und 2711bri^ ^k^ (>.).. 

implementiert sein, damit mehrere Sequenzer gieichzeitig 
verwaltet werden kdnnen. Dazu kann 2711bn nochmais in mehrere 
physikaiisch unabhangige Speicherbereiche unterteilt werden. 
In Figur 38 ist sind Implementierungsbeispiele fur 2720n - 
beschirieben. 

In Figur 28 wird der Aufbau von komplexen Prograramen 
verdeutlicht. Die Basismodule der Programme sind die Kpmplex- . 
konfigurationen (2801) die die Konf igurationen einer oder 
mehrere PAEs und.der dazugehbrenden Bus- und 
Triggerkonf igurationen beinhalten. Die 2801 werden durch 
einen Opcode (2802) reprSsentiert, der zusatzliche Parameter 
(2803) besitzen kann. Diese Parameter kCnnen einerseits 
konstante Datenwerte, variable Startwerte oder auch spezielle 
Konfigurationen beinhalten. Es existieren je nach Funktion 
ein, mehrere oder auch kein Parameter. 
Mehrere Opcodes greifen auf einen gemeinsamen Satz von 
Komplex-Konf igurationen zurUck und.bilden damit eine Opcode- 
Gruppe (2805) • Die unterschiedlichen Opcodes einer Gruppe 
unterscheiden sich durch besondere Ausgestaltungen der 
Komplex-Konf igurationen. Dazu werden Dif ferenzierungen (2807.) 
verwendet/ die entweder zusatzliche Konf igurationsworte 
enthalten, oder in 2801 vorkommende Konf igurationsworte 
Uberschreiben. 

Eine Komplex-Konfiguration wird, sofern keine Dif ferenzierung 
erforderlich ist, direkt von einem Opcode aufgerufen (2806) . 
Ein Programm (2804) setzfc sich aus einer Abfolge von Opcodes 
mit den jeweiligen Parametern zusamraen. 

Eine komplexe Funktion kann einmal in das Array geladen werden 

und kann danach durch unterschiedliche Parameter oder 

Dif ferenzierungen neu umkonf iguriert werden. Dabei werden nur 
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die sich andernden Teile der Kohfiguratioh umkorifigurierc. 
Unterschiedliche Opcode-Grup'pen untersqhiedlithe 
Komplex*Konf igurationen zuriick. (2805a,.../ 2805n} . 
Die unterschiedlichen Ebenen (Komplex-Konf iguration, 
Dif ferenzierung^ Opcode, Programm) werden in verschiedenen 
Ebenen von CT's abgearbeitet (vgl. CT Hierarchien in PACTIO) . - 
'Die unterschiedlichen Ebenen sind in 2810 dargestellt, wobei 1 
die niederste. und N die hochste Ebene darstellt. CTs kdnnen zu 
beliebig tief en Hierarchien aufgebaut werden (vgl. PACTIO). 

£s wird in 2801 unter zwei Arten von Codes unterschieden: 

1. Konf igurationsworte, die einen Algorithmus auf das Array 
aus PAEs abbilden. Der Algorithmus kann.dabei auch als 
Sequenzer ausgestaltet sein. Die Konf iguration erfolgt Uber 
die Schnittstelle 2709. Konf igurationsworte werden durch die 
Hardware definiert. ' 

2. Algorithmusspezif ische Codes, die von der mbglichen 
Ausgestaltiing eines Sequenzer Oder Algorithmus abhangig sind. 
Diese Codes werden votii Programmierer oder Coiapiler definiert 
und dienen zur Ansteuerung eines Algorithmus. 1st 
beispielsweise ein Z80 als Sequenzer in die PAEs konf iguriert, 
stellen diese Codes den Opcode des Z80 Mikroprozessors dar. 
Algorithmusspezif ische Codes werden tiber 2705 an das Array aus 
PAEs. gesendet . 

In Figur 29 ist ein mog.licher Grundaufbau einer PAE 
dargestelit. 2901 bzw. 2902 stellen die Eingangs- bzw. 
Ausgangsregister der Daten dar. Den Registern zugeordnet ist 
die komplette Vernetzungslogik zum Aufschalten auf den/die 
Datenbus/se (2920, 2921) des Arrays (vgl PACT02) . Die 
Triggerleitungen gem. PACT08 werden durch 2903 vom Triggerbus 
(2922) abgegriffen und mit 2904 auf den Triggerbus (2923) 
aufgeschaltet. Zwischen 2901 und 2902 ist eine ALU (2905) 
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beiiebiger Ausgestaltung geschaltet. Den Datenbusseh (2906> 
2907) und. der ALU zugeprdhet ist ein Registersatz (2915).^- in , 
welchem lokale Daten gespeichert werden. Die RDY/ACK- 
Syncronisationssignaie der Datenbusse und Triggerbusse werden 
zu einer Statemachine (oder einem Sequenzer) (2910) gefUhrt 
.(2908), bzw. von der Einheit generiert (2909), 
Ober eine Interfaceeinheit (2911) greift die CT mittels eines 
Bussystemes (2912) selektiv.auf eine Mehrzahl von 
Konfigurationsregistern (2913) zu. 2910 wahlt tlber einen 
Multiplexer-. (2914): jeweils. eind bestimmte Konf iguration aus, 
Oder sequenzt Uber eine Mehrzahl von Konf igurationsworten, die 
dann Befehle fUr den Sequenzer darstellen. 

Da die VPU-Technologie hauptsachlich gepipelinet arbeitet ist 
es von Vorteil entweder die Gruppe 2901 und 2903 oder die 
Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs 
zu versehen. . Dadurch kann verhindert werden, dafi eine Pipeline 
durch einfache Verzogerungen (z.B. in der Synchronisation) 
stockt. 

2920 ist ein optionaler Buszugang, Uber den ein der Speicher 
einer CT (siehe Fig. 27, 2720) oder ein gewahnicher interner 
Speicher an Steiie der Konf igurationsregister an den Sequenzer 
2910 geschaltet werden kann. Damit sind groBe sequent ielle 
Programme: in einer PAE ausfUhrbar. Der Muitiplexer 2914 wird. 
dazu so geschaltet, dafi er nur den internen Speicher 
verbindet. 
Die Adressen werden 

a) fUr den CT-Speicher durch die Schaltung in Fig. 38 
generiert. 

b) fUr den internen Speicher direkt von 2910 generiert. 

Figur 30 zeigt eine mbgliche Erweiterung der PAE um der CT 
Oder einem anderen zuegschalteten Mikroprozessor einen Zugriff 
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auf die Datenregister zu ermbglichen. Der Adfessraxm und die 
Interface der Buseinheit (vormals 2911/ 3003) werden urn die 
zusatzlichen Datenbusse (3001) erweitert. Den Jewel ligen 
Registern wird ein Multiplexer (3002) vorgeschaltet mittles 
dem 3003 tlber den Bus 3001 Daten in das Register schreiben 
kann. Die Ausgange der Register werden Ober 3001 zuriick an 
3003 geftihrt. 3003 Qbertragt die Dateri zur cf 2912. 
Alternativ (3003a) zur Obertragung der Daten- zu CT ist es 
mOglich die Daten durch ein zusatzliches Interface . (3004 ) auf 
einen von der CT uriabhangigen Bus (3005) zu tibertragen. 

Figur 31 zeigt die Kopplung des Arrays von PAEs (3101) mit 
einem Ubergeordneten Mikrokontroller . 3101 beinhaitet sind 
sSmtliche lO-Kanale gemSB den erf indungsgemafien Speichern. 
Die Architektur arbeitet gem^B Figur 23. 2912 in Figur 31a 
stellt den Bus fiir die Konf igurationsdaten und Registerdaten 
gem. Figur 30 zur Verftigung. Der Datenbus wird separat durch 
3104 dargestellt. 3102 stellt die CT dar, die in Fig* 31a auch 
den Mikroprozessor darstellt. 

FQr samtliche Bussysteme bestehen unabhangig voneiriander 
folgende AnschluBmpdelle an einen Prozessor, die je nach. 
Prograimniermodell und unter Abwagung von Preis und Performance 
gewahlt werden: 

1. Register-Modell 

Beim Register-Modell wird der jeweilige Bus uber ein Register 
angesprochen, das direkt in den Regisnersatz des Prozessors 
integriert ist und vom Assembler als Register oder Gruppe von 
Registern angesprochen wird. Dieses Modell ist am 
ef fizientestens werin einige wenige Register fur den 
Datenaustausch ausreichen. 

2. lO-Modell 
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Der jeweilige Bus liegt im lO-Bereich des Prozessors. Dies ist 
meistens die etnfach'ste urid kostenguristigste Variante. 

3 . Shared-MeiDory-Modell 

Der Prozessbr und der jeweilige Bus -teilen sich einen 
Speicherbereich im Datenspeicher . FOr grofle Datenmengen ist 
das eine performante Losung. 

4. Shared-Memory- DMA-Model 1 

Prozessor und Bus teilen sich wie im vorigen Modell denselben 
Speicher.. Zur weiteren- Geschwindigkeitssteigerung existiert 
eine schnelle DMA (vgl. Figur 38) 

die den Datenaustausch zwischen Bus und Speicher Ubernimmt. 

Zur Steigerung der Obertragungsgeschwindigkeit sollten diie 
jeweiligen Speicher physikalisch vom Ubrigen Speicher trehnbar 
sein (mehrere Speicherbanke) / damit Prozessor und VPU 
unabhangig auf ihre Speicher zugreifen kannen. 

In Figur 31b Ubernimmt eine. CT (3102) die Konf iguration des 
Arrays, wahrend ein dedizierter Prozessor (3103). uber. 3006 das 
Programmiermodell nach Fig. 23 gewahrleistet, indem er Uber 
3006 Registerdaten mit dem Array austauscht und Uber 3104 die 
gewdhnlichen baten austaiischt. 

Die Figuren 31c/d entsprechen den Figuren 31a/b, jedoch vmrde 
fUr den Datenaustausch ein Shared-Memory (3105) zwischen dem 
jeweiligen Prozessor und 3101 gewahlt. 

Figur 32 zeigt eine Schaltung die es den erf indungsgemSfien 
Speicherelementen ermbgllcht gemeinsam auf einen Speicher oder 
eine Gruppe von Speichern zuzugreifen, wobei jeder einzelne 
Speicher der Gruppe einzeln und eindeutig adressierbar ist. 
Dazu werden die einzelnen Speicherelemente (3201) auf ein 
Bussystem geschaltet, bei dem jedes 3201 einen eigenen Bus 
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besitzt. Der Bus kanh bidirektional augestaltet sein bder 
. durch zwei unidirektionale Busse realisiert . warden.. Pro 
Speicher existiert ein Adress/Datenmultiplexer, der einen Bus 
zum Speicher durchschaltet . Dazu werden die anliegenden 
Adressen jedes Busses dekodiert (3207) und danach jeweils ein 
Bus pro Zeiteinheit durch. einen Arbiter (3208) ausgewahlt 
(3204). Die entsprechenden Daten und Adressen werderi auf den •■ 
jeweiligen Speicherbus (3205a) Obertragen, wobei eine 
Zustandsmaschine (3206) die notwendigen Protokolle generiert. 
Tref fen bei einer Leseaiifordeihing die Daten yom Speicher ein,. 
wird durch die jeweilige Zustandsmaschine die Adresse des 
Speichers auf den Bus geschaltet, der die Daten anfragte. Die 
Adressen alier eingehenden Busse werden pro Bus des Bussystems 
3202 durch eine Multiplexereinheit ausgewertet und. auf den 
entsprechenden Bus Obertragen. Die Auswertung erfolgt 
entsprechend der Auswertung der Ausgangsdaten, d.h. ein 
Dekoder (3205) je Eingangsbus (3205b) leitet ein Signal auf 
einen Arbiter (3210), der den Daten-Multiplexer ansteuert. 
Damit werden pro Zeiteinheit unterschiedliche Eingsuigsbusse 
auf das Bussystem 3202 geleitet. 

In Figur 33 wird zur flexibleren und einfacheren Auswertung 
der Trigger-. und RDY/ACK-Signale die starre Statemachine / der 
starre Sequenzer 2910 durch einen frei prograromierbaren (3301) 
ersetzt. Die voilstandige Funktion von 3301 wird durch die 
Konfigurationsregister 2913 vor der AusfUhrung von Aigorithmen 
durch die CT bestimmt. Das Laden von 3301 wird durch ein 
gegenOber 2911 um die Verwaltung von 3301 erweitertes CT- 
Interface (3302) gesteuert. Der Vorteil von 3301 liegt darin, 
da6 erheblich flexibler mit den unterschiedlichen Trigger- und 
RDY/ACK-Signalen umgegangen werden kann, als in fest 
impleraentierten 2910. Nachteilhaft wirkt sich die Grofie eines 
von 3301 aus. 
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Bin KoB^romiA der zu der hdchsten Flexibilitat bei 
vertretbarer GrOfle fUhrt ist, : die. Trigger und RDY/ACK-Signale 
durch eine Einheit gemafi 3301 auszuwerten und s^tliche festen 
Abldufe innerhalb der PA£ durch eine^fest impleroentierte 
Einheit nach 2910 zu steuem. 

Die erfindungsgem^iie PAE zur Verarbeitung von Ibgischen 
Funktionen ist in Figur 34 abgebildet. Kern der Einheit ist 
eine nachfolgend detaillierter beschriebene Einheit zum 
verknupfen von einzelnen Signalen (3401).. bber die tlblichen 
Register 2901, 2902, 2903, 2904 werden die Bussignaie mit 3401 
verbundeni Die Register werden hierzu um einen Feed-Mode 
erweitert, der einzelne Signale selektiv ohne sie taktsynchron 
zu speichern (register) zwischen den Bussen und 3401 
austauscht. Der Multiplexer (3402) und die 

Konf igurationsregister (3403) werden an die unterschiedlichen 
Konf igurationen von 3401 angepafit. Ebenso ist das CT-Interface 
(3404) entsprechend ausgestaltet . 

Figur 35 zeigt mOgliche Ausgestaltungen von 3401. Ein globaler 
Datenbus verbindet die Logikzellen 3501 und 3502 mit den 
Registern 2901, 2902, 2903, 2904. Durch Busschalter, die als 
Multiplexer, Gatter, Transmissipngates oder einfachen 
Transistoren ausgelegt sein kbnnen wird 3504 mit den 
Logikzellen verbunden. Die Logikzellen kbnnen entweder 
komplett einheitlich gestaltet sein, oder unterschiedliche 
Funktionalitat besitzen (3501, 3502) . 3503 stellt einen RAM- 
Speicher dar. 

M5gliche Ausgstaltung der Logikzellen sind; 

- Lookup Tabellen 

- Logik 

- Multiplexer 

- Register 

- 61 / 96 - 



wo 00/77652 



PCT/DEOO/01869 



Die Auswahi der Funktionen und Vernetzung kahn entweder 
f lexibel programmierbar, durch SRAM-^Zellen erfolgen oder . 
mittjBls. unveranderlicher ROM oder semistatischer FlashROM 
Speicher. 

2ur Beschleunigung von sequentiellen Algorithmen, die schlecht 
parallelisiert werden konnen ist bei herkoxmalichen Prozessoren 
' spekiilatiye AusfUhrung bereits Stand der Technik. Die 
parallele Variante f Ur VPUs ist in Figur 36 dargestellt. Die 
Operanden (3601) werden gleichzeitig an mehrere moglichen 
Pfade von Teilalgorithmen (3602a, 3602b, 3602c) geftihrt. Die 
Teilagorithmen konnen dabei einen unterschiedlichen Flclchen- 
und Zeitbedarf aufweisen. Jeweils nach den Teilalgorithmen 
werden die Daten erf indungsgemaB gespeichert (3612ar 3612b, 
3612c) , bevor sie nach einer Umkonf iguration von den nSchsten 
Teilalgorithmen verarbeitet werden. (3603). Auch die 
Umkonfigurationszeitpunkte der einzeinen Teilalgorithmen sind. 
voneinander unabhangig, ebenso die Zahl der Teilalgorithmen 
selbst (3603, 3614). Sobald entscheidbar ist, welcher der 
Pfade zu wShien ist, werden die Pfade Uber einen Bus oder 
Multiplexer zusaramengefuhrt (3605). Von einer Bedingung 
generierte Triggersignale (ygl. .PACT08) (3606) bestiinmen 
weicher def Pfade gewahlt und an die nachfolgeriden Aigorithmen' 
weitergeleitet wird. 

Figur 37 zeigt den Aufbau eines Hochsprachencompilers/ der 

gewbhnliche sequentielle Hochsprachen (C, Pascal, Java) auf 

ein VPU-System Ubersetzt.' Sequentieller Code (3711) wird von 

paralleiem Code (3708) getrennt, wodurch 3708 direkt in dero 

Array von PAEs verarbeitet wird. 

Fur 3711 gibt es drei AusfUhrungsraoglichkeiten: 

1. Innerhalb eines Sequenzers einer PAE (2910) 
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2. Mitteis eines in die VPU kbnf igiirierten Sequenzers. Der 
Con^iler efzeiigt hierzii eirierseits eineii auf die Aiifgabe 
optimierten Sequenzer, andererseits direkt den 
algorithmenspezifischen Sequenzercode (vgi. 2801). 

3. Auf einem gewChnlichen externen Prozessor (3103) 

Welche MOglichkeit gewahlt wird hSngt von der Architektur der 
VPU/ des Computer systemis iind des Aigorlthinus ab* 

Der Code (3701) wird zunSchst.in einem Pr^prozessor (3702) in 
Datenf luflcode (3716) (der in einer speziellen Version der 
jeweiligen Programmiersprache datenf lufioptimiert geschrieben 
wurde) und gewdhnlichen sequentiellen Code getrennt (3717). 
3717 wird auf parallelisierbare Teilalgorithmen untersucht 
(3703)/ die sequentiellen Teilalgorithmen werden ausgesondert 
(3718) . Die parallelisierbaren Teilalgorithmen werden als 
Makros vorlaufig plaziert und geroutet. 
In einem iterativen Prozess werden die Makros mit dem 
datenflufioptimierten Code (3713) zusammen plaziert, geroutet 
und partitioniert (3705) . Eine Statistik (3706) wertet die 
einzelnen Makros/ sowie deren Partitionierung hinsichtlich der 
Effizienz aus, wobei die Umkonf igurationszeit und der Aufwiahd 
der Umkonf iguration in die Ef f izienzbetrachtiing einflieBt. 
Ineffiziente Makrois werden. ehtfernt. und als sequentieller. Code^' '. 
ausgesondert (3714) . 

Der verbleibende parallele Code (3715) wird zusammen mit 3716 
compiliert und assembliert (3707) und VPU Objektcode 
ausgegeben (3708) . 

Eine Statistik tiber die Effizienz des generierten Codes, sowie 
der einzelnen (auch der mit 3714 entfernten Makros) wird 
ausgegeben (3709) , der Programmierer erhalt dadurch 
wesentliche Hinweise auf Geschwindigkeitsoptimierungen des 
Programmes. 
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Jedes Makro des verbleibehden sequentieilen Codes wird auf 
• seine Kompiexitat und Anforderungeh iintersucht (372.0) • Aus 
einer Datenbank die von der VPU-Architektur und dem. 
Computersystem abhSngt (3719) wird der jeweils geeignete 
Sequenzer ausgewahlt und als VPU-Code (3721) ausgegeben. Ein 
Compiler (3721) generiert den Assemblercode des. jeweiligen 
' Makros fUr den jeweils von 3720 gewahlten Sequenzer und gibt 
ihn aus (3711) . Die 3710 und 3720 sind eng miteinander 
verkntipft. Gegebenenfalls veriauft die Abarbeitung iterativ urn 
den geeignetsten Sequenzer mit minimalsten. und schrielist^n. 
Assemblercode zu finden. 

Ein Linker (3722) fafit die Assemblercodes (3708, 3711, 3721) 
zusammen und generiert den aus ftthrbaren Objektcode (3723). 

Figur 38 zeigt den internen Aufbau von 2720. Kern der 
Schaltung ist ein ladbarer Up/Down-Zahler (3801), der seinen 
Startwert von der Schaltung Fig. 27* von dem Bus 3803 
(entspricht 2703) Uber den entsprechend gesetzten Multiplexer 
3802 erhait. Der zahler dient als Programmzahler (PC) fUr den 
zugeordneten Sequenzer, der Startwert ist die erste Adresse 
des auszufUhrenden Programmes. Der Wert von 3801 wird Uber 
einen Addierer (3805) und 3802 auf den zahler zuruckgefUhrt. 
Uber den Bus 3804. wird von dem Sequenzer ein Offset an 3805. 
gefUhrt, der entweder vom PC abgezogen oder hinzuaddiert wird. 
Damit sind relative SprUnge effizient implement ierbar. Der PC 
wird aber den Bus 3811 an das PAE-Array herausgefUhrt und kann 
fUr call -Operationen auf dem Stack gespeichert werden. FUr 
ret-Operationen wird der PC iiber 3804 und 3802 vom Stack auf 
3801 gefUhrt. 

Ober den Multiplexer 3806 wird entweder der PC oder ein vom 
PAE-Array zugefOhrter Stackpointer (3807) auf einen Addierer 
(3808) gefUhrt. Hier wird ein Offset den Werten abgezogen oder 
hinzuaddiert,. der im Register 3809 gespeichert wird und Uber 
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3803 geischrieben wirdl 3808 ermdglicht die Verschiebun^ des 
Prbgranmes innerhalb .des Speicher 2711.. Dadurch wjerden 
Garbage-collector Funktionen zum Aufraumen des Speichers 
m5glich (vgl. PACTIO) . Die Adressverschiebung die durch den 
Garbage-collector auftritt wird durch eine Anpassung des 
Offsets in 3809 ausgeglichen. 

Figur 38a ist eine Variante von Figur 38 in der der 
Stackpointer (3820) ebenfalls integriert ist. t)ber 3804 wird 
nur noch der Offset fUr relative SprUnge an 3805 gefUhrt 
(38b4a) . ber Stackpointer ist ein Up/Dowri-zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack represent iert, 
und tiber 3803 geladen wird. Der PC wird direkt an den Datenbus 
zum Speicher geftihrt um Uber einen Multiplexer bei call- 
Operationen auf den Stack geschrieben zu werden, Der Datenbus 
des Speichers wird Ober 3821 und 3802 auf 3801 
zurUckgekoppelt, zur DurchfUhrung von ret-Operationeh. 

Figur 39 verdeutlicht die Funktionsweise der Speicher. Der 
Speicher (3901) wird Uber einen Multiplexer (3902) adressiert- 
Im Standard-Modus, Lookup-Modus und Register Modus werden die 
Adressen aus dem Array (3903) direkt an 3901 gefiihrt. Im 
Stack-Modus und FIFO-Modus werden die Adressen in einem 
up/down-zahler (3904) generiert. In diesem Fall werden die 
Adressen der lO-Seite von einem weiteren up/down-zahler (3905) 
zur VerfUgung gestellt. Die Adressen fUr den externen RAM 
(Oder 10) werden von einem weiteren up/down-Zahler (3906) 
generiert/ die Basisadresse wird von einem Register (3907) 
geladen. Das Register wird von der CT oder einem externen 
Host-Prozessor gesetzt. Die gesamte Steuerung Uberninimt eine 
Statemachine (3908) . Den Zustand des Speichers (voll^ leer, 
halbvoll, etc) entnimmt 3908 einem up/down-Zahler (3909) der 
die Anzahl der im Speicher befindlichen Worte zahlt. Wird der 
Speicher blockweise ver^ndert (Stack auf externen Stack 
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schfeiben Oder von extemem Stack lesen) wird die GrOfie de^ 
Blocks als Konstante (3917) auf einen Addierer/Subtrahierer/ 
(3910) gegeben, auf den der ZSihlerstand von 3909 
zurUckgekoppelt ist. Das Ergebnis wir^d nach 3909 geladen; 
Damit laflt sich der zahlerstand schnell an blockweise 
Ver^ndenxngen anpassen, (NatUrlich ist es moglich den zahler 
auch mit jedem geschriebenen bder geleseneh Wort bei eirier 
Blockoperation zu modifizieren) . FUr Cache-Operationen steht 
ein Cache-Kontroller (3911) nach dem Stand der Technik zur 
VerfUgung, dem ein Tag-Speicher (3912). zugeordnet ist.. Je nach 
Betriebsart wird der Wert von 3911 oder 3906 Uber einen 
Multiplexer (3913) als Adresse nach auBen gefOhrt (3914) . Ober 
den Bus 3915 werden die Daten nach auBen gefOhrt lind liber den 
Bus 3916 werden die Daten mit dem Array ausgetauscht. 

Progrananierbeispiele zur Verdeutlichung von Teilalgorithmen 
Ein Modul kann beispielsweise folgendermafien deklariert 
werden : 

module example 1 

input (varl, var2 : tyi; var3 : ty2) . 
output (resl, res2 : tya) • 
■ ^9[in . . ' • 

register <regnamel> (resl) • 
register <regname2> (res2) . 
terminates (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen mit den 
Typen ty„. 

begin . . . end markieren den Rumpf des Modules • 
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register <regnamel/2> Ubergibt das Ergebnis an den Output, 
wobei des Ergisbnis in dem durch -<regnaihel/2> spezifizieften 
Register zwischengespeichert wird. <regnamel/2> ist dabei eine 
globale Referenz auf ein bestixnmtes Register. 

Als weitere Ubergabemqdi. an den Output stehen beispielsweise 
folgehde Speicherarten zur VerfUgung: 
. flfo <£i£oname>/ wobei die Daten an einen nach dem FIFO- 

.. Prinzip arbeitenden Speicher iibergeben werden, <fifonanie> ist 
dabei eine globale Referenz auf einen bestimmten, im FIFO- 
Modus arbeitenden Speicher. terminated wird dabei um den 
Parameter bzw. das Signal "fifofull" erweitert, der/das 
anzeigti da& der Speicher voll ist. 

stack <stackname>/ wobei die Daten an einen hach dem Stack- 
Prinzip arbeitenden Speicher iibergeben werden. <stackname> ist 
dabei eine globale Referenz auf einen bestimmten, im Stack- 
Modus arbeitenden Speicher. 

tezminateg unterscheidet die Programraierung entsprechend des 
erf indungsgemafien Verfahrens von der herkbmmlichen 
sequentiellen Programmierung . Der Befehl definieirt das 
Abbruchkriterium des Modules. Die Ergebnisvariableh resl und 
res2 werden von terminaite@ nicht mit ihrem tatsachlichen Wert 
evaluiert/ statt dessen wird nur die GUltigkeit der Variablen 
(also deren Statussignal) geprUft. Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkniipft, z.B. 
durch eine UND^, ODER- oder XOR-Operation. Sind beide 
Variablen gUltig, terminiert das Modul mit dem Wert 1, Das 
bedeutet, ein Signal mit dem Wert 1 wird an die Ubergeordneten 
Ladeeinheit . weitergeleitet, woraufhiri die Ubergeordneten 
Ladeeinheit das nachfolgende Module ladt. 
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inoduio . exampie2 ■•' ' 

input {varl/ var2 : ty-j; var3 : tyt) . 

output (resl : ty4) . 

begin 

register <regnamel> (varl> var2) . 

fifo <fifonamel> (resl, 256).. 
terminatee (f ifofull (.<f if pnamei>) ; . 1 ) . 
end. 

register wird in diesem Beispiel Uber input-Daten definiert. 
Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 
dafi das Register, das die output-Daten in examplel aufnimmt, 
die input-Daten far example2 zur VerfUgung stellt. 

fifo definiert einen FIFO-Speicher der Tiefe 256 far die 
Ausgangsdaten resl. Das Full-Flag {fifo full) des FIFO- 
Speichers wird in terminate8 als Abbruchkriterium verwendet. 

module main 

input (inl, in2 : tyi; in3 : ty2) . . . 

ou^ut (outi :=ty4} . 

begin 

define <regnainel> : register (234) . 
define <regname2> : register (26) . 

define <fifonamel> : fifo(256,4). // FliPO Tiefe 256 

(varl2> var72) = call examplel (inl, in2, in3) . 
• • • 

(outl) = call example2 (varl2, var72, var243) . 
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• signal '(outl) ..- 
tarminatee (exaiaple2) . . 
and« 

define definiert eine Schnittstelle fUr Daten (Register^ 
Speicher, etc). Bei der Definition werden die erfdrderlicheh 
Ressourcen/ sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur eihmal zur Verfugung stehen, 
mtissen. sie eindeutig. angegeben werden. Damit. ist die 
Definition global, d.h. die Bezeichnung gilt fUr das gesamte 
Programm. 

call ruft ein Modul als Unterprogramm auf • 

signal definiert ein Signal als Ausgangssignal, ohne daB eine 
Zwischenspeicherung verwendet wird. 

Durch terminates (exainple2) wird das Modul main terminiertr 
sobald das Unterprogramm example2 terminiert. 

Durch die; globale Deklaration "define. . . ist. es prinzipiell 
nicht mehr notwehdig, die so definierten input/output Signale 
in die Schnittstellen-Deklaration der Module aufzunehmen. 
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Paten tanspruche 

1. Verfahren zur Prograinmierung von Bausceinen mit ein-* oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
der Datenf lufigraph und Kontrollf luflgraph eines Prograinms 
extrahiert wird. 

2. Verfahren nach Anspruch 1 dadurch gekennzelchnet/ daB 

die Graphen derart ih mehrere Teilgraphen zerlegt werden, dafi 
mbglichst wenig Verbindungen zwischen den Teilgraphen 
bestehen. 

3. Verfahren nach Anspruch 1 dadurch gekennzelchnet, dafi 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
moglichst wenig Daten zwischen den Teilgraphen tibertragen 
werden. 

4. Vexfahren nach imspruch 1 dadurch gekennzelchnet, dafi 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
moglichst keine Rtickkoppelungen zwischen den Teilgraphen 
bestehen. 

5. Verfahren nach Anspruch 1 dadurch gekennzelchnet, dafi 
die. Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
die Teilgraphen jewel Is moglichst exakt den Ressourcen des 
Bausteines angepafit sind. 

6. Verfahren nach Anspruch 1 dadurch gekennzelchnet, dafi 
zwischen den Teilgraphen Speicherelemente zur Sicherung der 
Daten und Zustande eingefUhrt werden. 

7. Verfahren nach Anspruch 1 dadurch gekennzelchnet, dafi 

- 70 / 96 - 



wo 00/77652 



PCT/DEOO/01869 



innerhalb eines Teilgraphen Statussignale zwischen den Knoten 
UbertrageEi werden^ die den Zustarid jedes einzelneh Knbtens 
jedem anderen Knoten soweit zur VerfUgung stellen. 

8. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet^ daB 
. eine Menge von Statusslgnalen an eine libergeordnete Einheit, 

die die Konf iguration der Zellen steuert,. gefUhrt wird, um 
eine Umkonf iguration auszulOsen. 

9. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet, dafi 
eine Menge von Statussignalen an eine Ubergeordnete Einheit, 
die die Konfiguration der Zellen steuert, gefUhrt wird, um 
einen Zustand an einen nicht in die Zellstruktur geladenen 
Teilgraphen zu Ubermitteln. 

10. Verfahren nach Anspruch 1 dadurch gekennzeichnet/ daB 
die Teilgraphen Uber mehrere Bausteine verteilt werden. 

11* Verfahren nach Anspruch 1 dadurch gekennzeichnet, da£ 
mehrere Pfade einjer Anweisung, von denen je nach Auswertung 
der Anweisung (IF, CASE) immer exakt einer ausgefUhrt wird, 
derart zerlegt werden, dafi jeder Pfad einen Teilgraph ergibt. 

12, Verfahren zur Programmierung von Bausteinen:init ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
jedem Datensignal ein Zustand zugeordnet wird, der anzeigt. ob 
das Signal giiltig ist oder nicht (RDY) . 

13. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
jedem Statussignal ein Zustand zugeordnet wird, der anzeigt ob 
das Signal gUltig ist oder nicht (RDY) . 
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14. Verfahren hach Anspruch 12 und i3 dadurch gekennzeichnet, 
dafi- . ■ ;v ; - 
der Empfanger eines gUltigen Signales den Empfang quittiert 
(ACK) . 

15. Verfahren nach Anspruch 12 und. 13 dadurch gekennzeichnet/ 
dafi • 

der Empf anger anzeigt, dafi er ein. Signal erwartet (REQ) • 

16. Verfahren nach Anspruch . 15 dadurch gekennzeichnet, dafi. 
der Sender anzeigt das erwartete Signal zu senden. 

17. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet/ dafi 
ein erster Teil der Zellstruktur einen Teilgraphen berechnet, 
und dessen Berechnung schrittweise beendet; sobald eine oder 
mehrere Zellen die Berechnung beendet haben, diese als zweiter 
Teil der Zellstruktur umkonfiguriert werden, sodafi ein dritter 
Teil zeitgleich mit den neu konfigurierten Zellen den neuen 
Teilgraphen berechnen (Wafe-Reconfig) . 

18. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
mehrere Konfigurationsregister einer Zelle gleichzeitig 
verschiedene Konf igurationen verschiedener Teilgraphen 
speichern. 

19. Verfahren nach Anspruch 17 und 18 dadurch gekennzeichnet, 
dafi 

von mehreren Konf igurationen genau eine Konf iguration aktiv 
ist.. 

20. Verfahren nach Anspruch 17 und 18 dadurch gekennzeichnet, 
dafi 
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nicht kohfigiirierte Konfigurationsregister besbnders 
gekennzeichnet. sind, 

21. Verfahren nach Ansp.ruch 17 dadurch gekennzeichnet/ dafi 
die jeweilige Konfiguration durch von der Zeilstruktur 

. generierte Statussignale ausgewahlt wird.- 

22. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
die jeweilige Konfiguration durch von einer Ubergeordneten 
Ladeeinheit generierte Statussignale ausgewkhlt wird. 

23. Verfahren nach Anspruch 17 dadurch gekennzeichnet, daB 
die jeweilige Konfiguration durch extern generierte 
Statussignale ausgewahlt wird. 

24. Verfahren nach Anspruch 17 und.21 bis 23 dadurch 
gekennzeichnet, daB 

jede Zelle einzeln entsprechend ihrer Konfiguration die 
Statussignale auswertet und die entsprechende Konfiguration 
aktiviert. 

25. Verfahren nach Anspruch 17 und 20 bis 24 dadurch 
gekennzeichnet/ dafi : 

bei der Aktivierung eines nicht konf igurierten 
Konfigurationsregisters die Konfiguration bei der 
Ubergeordneten Ladeeinheit angef order t wird und bis zum 
vollstandigen Laden der Konfiguration die Abarbeitung des 
Teilgraphen angehalten wird. 

26. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
das Laden einer Konfiguration durch Von der Zeilstruktur 
generierte Statussignale ausgelost wird. 

27. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
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das Laden eiher Korif iguratioix dufch vdh iibergeordneteh 
Ladeeiriheit aiisgelcSst wird; 

28. Verfahren nach Anspruch 17 dadurch gekennzeichnet/ dafl 
das Laden einer Konf iguration durch extern generierte 
Statussignale ausgel5st wird. 

29. Verfahren nach Anspruch 17 und 26 bis 28 dadurch 
gekennzeichnet/ dafi 

jede Zeile einzeln entsprechend ihrer Kohf iguration die 
Statussignale auswertet und das Laden der entsprechenden 
Kontiguration veranl^Bt. 

30. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet^ dafi 

in den Zellen Sequenzer integriert sind, die die 
Konf igurationsregister adressieren und ein in den 
Konfigurationsregistern gespeichertes Programm ausfUhren. 

31. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekehiizeichet, dafi 

in den Zellen Sequenzer integriert sind, die einen der 
Zellstruktur ziigeordneten. Speicher adressieren und ein in d^m. . 
Speicher abgelegtes Programm ausfUhren. 

32. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
durch Zusammenschaltung mehrerer Zellen ein Sequenzer gebildet 
wird, der entsprechend des auszufOhrenden Programmes 
ausgestaltet ist.. 

33. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
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ein externeh Processor zur Ausftihrung von seqiientiellen 
Teilgraphen am den Baustein.gekoppelt ist. 

34. Verfahren nach Anspruch 33 dadureh gekennzeichnet, dafi 
das die Obergeordnete Ladeeinheit zusatzlich als Prozessor zur 
Ausfiihrung von sequentiellen Teilgraphen verwendet wird. 

35. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet, 
dafi ' \ 

die Sequenzer Zugriff auf die Datenregister, der einz.elnfen 
Zellen haben. 

35. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet/ 
daB 

zu dem Sequenzer die iibrigen Teilgraphen entsprechend ihrer 
jeweiligen.Ausgestaltung konfiguriert werden. 

36. Verfahren nach Anspruch 30 bis 35 dadureh gekennzeichnet , 

zu dem Sequenzer die Ubrigen Teilgraphen entsprechend ihrer 
jeweiligen Ausgestaltiing umkonfiguriert werden. 

37. Verfahren nach Anspruch 30 bis 34 dadureh gekennzeichnet/ 
dafi 

zu dem Sequenzer Standardrechenwerke konfiguriert werden, die 
dem CISC-Mode 11 entsprechen. 

38. Verfahren nach Anspruch 30 bis 34 und 37 dadureh 
gekennzeichnet, dafi 

vom Compiler entsprechende Befehle zur Ansteuerung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 
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39. Verfahreri liach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekenhzeichnet, dafl- 

vom Con^iler entsprechende Befehle zur externen Vernetzung der 
Standardrechenwerke generiert werden-nind dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

40. Verfahreri nach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekennzeichnet, dafl 

vom Compiler entsprechende Befehle zur internen Vernetzung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

41. Verfahren nach Anspruch 30 bis 34 und 37 bis 40 dadurch 
gekennzeichnet/ daB 

die Befehle zyklisch, durch einem Programmzahler bestimmt, 
geladen werden. 

42. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet/ 
daft 

der Sequenzer seine Operanden auf einem Stack verwaltet und 
einen Stackprozessor darsteilt. 

43. Verfahren nach Anspruch 30 bis .34 dadurch, gekennzeichnet, 
dafi . 

der Sequenzer seine Operanden in einem Akkumulator verwaltet 
und einen Akkumulatorprozessor darsteilt. 

44. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
daB 

der Sequenzer seine Operanden in einem Registersatz verwaltet . 
und einen Registerprozessor darsteilt. 
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45. Verfahren nach Anspzruch 30 bis 34 dadurch gekennzeichnet, 
• dafi ■ ' • ' ■ ^' ■' '■' 

der Sequenzer seine Operanden in einem Speicher verwaltet und 
einen Load/Store-Prozessor darstelltr 

46. Verfahren nach Anspruch 30 bis 34 und 42 bis 45 dadurch 
gekennzeichnet^ dafi 

der Sequenzer unterschiedliche zur AusfUhrung des Programmes 
geeignete Verfahren gleichzeitig implementiert hat- 

47. Verfahren nach Anspruch 30 bis 34 und 42 bis 46 dadurch 
gekennzeichnet, dafi 

mehrere unterschiedlich ausgestaltete Sequenzer gleichzeitig 
in die Zellstruktur konfiguriert sind. 

48. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 

im Programm vorkommende Zeiger derart umsortiert werdenv dafi 
sie.die gr&fitmdgliche zeitliche Unabh^ngigkeit aufweisen, also 
moglichst viele nicht von einem Zeiger abhangige Befehle 
zwischen zwei Zeigern llegen. 

49. Verfahren zur . Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 

im Programm vorkommende Zeiger derart umsortiert werden, dafi 
die durch den Zeiger referenzierten Daten moglichst weit 
hinter der Berechnung des Zeigers verwendet werden. 

50. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
bei Sprtingen und Vergleichen alle m6glichen Teilgraphen 
solange gleichzeitig in die Zellstruktur konfiguriert und 
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berechnet werdisn,. bis bekanrit ist, welcher Teilgraph der durch 
den Sprung dd6r Yergleich'gewahlte ist. . . ; 

51. Verfahren nach Anspruch 50 dadurch gekennzeichnet, daB 
die Daten und Zustande samtlicher nicht gewahlter Teilgraphen 

. ignoriert werden, und nur die Daten und Zustande des gewahlten 
Teilgraphen weiterverarbeitet werden. ' 

52. Verfahren zur Programmierung von Bausteinen mit einr Oder 
mehrdimensibnaler Zeilstruktur, dadurch gekennzeichet, dafi 
der Zelistruktur einer oder mehrere Speicher zugeordnet sind. 

53. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafi 
der Speicher beliebig frei adressiert wird (Random Access) 

54. Verfahren nach Anspruch 52 dadurch gekennzeichnet, daB. 
der Speicher als Lookup Tabelle verwendet wird.. 

55. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafl 
der Speicher als FIFO zur Entkoppelung von Datenstrbmen 
verwendet wird. 

.56. Verfahren nach Anspruch 52 dadurch gekennzeichnet, daB 
der Speicher als Stack fUr einen Sequenzer verwendet wird. 

57 i Verfahren nach Anspruch 52 dadurch gekennzeichnet, daB 
der Speicher als Registerbank fUr einen Sequenzer verwendet 
wird. 

58. Verfahren nach Anspruch 52 bis 54 und 56 bis 57 dadurch 
gekennzeichnet/ daB 

der Speicher einen Ausschnitt des externen Speichers 
darstellt. 
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59* Verfahren nach Anspruch 52 bis 53 daldurch gekennzeichnet, 
der Speicher als Cache fUr den externen Speicher arbeitet. 

60. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Zellstruktur . in den 
externen Speicher geschrieberi wird* 

61. Verfahren nach Anspruch 52 dadurch gekennzeichnet/ 
der Speicher durch ein Signal yon. der Ubergeordneten 
Ladeeinheit in den externen Speicher geschrieben wird. 

62. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der Zellstruktur aus dem 
externen Speicher gelesen wird* 

63* Verfahren nach Anspruch 52 dadurch gekennzeichnet/ 
der Speicher durch ein Signal von der Ubergeordneten 
Ladeeinheit aus dem externen Speicher gelesen wird. 

64* Verfahren nach Anspruch 52 und 60 bis 63 dadurch 

gekennzeichnet/. . 

die Basisadresse im externen Speicher frei yon. der 
Zellstruktur gesetzt wird. 

65. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet/ 

die Basisadresse im externen Speicher frei von der 
iibergeordneten Ladeeinheit gesetzt wird. 

66. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet/ 
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die Basisadresse im externen Speicher frei von einer externen 
Eihheit gesetzt wirdi 

66. Verfahren nach Anspruch 52, 57 und 60 bis 66 dadurch 
gekennzeichnet, 

daB durch das Schreiben und Lesen der Registerbank in/aus dem 
externen Speicher eine Umschaltung von einem Teilgraphen zu 
einem anderen { Kont ex ts witch mit Push/Pop) aiisgefUhrt wird. 

' 67. Verfahren nach Anspruch 52 und 56 dadurch gekennzeichnet, 
daB 

der Stack grofier als der Speicher ist, indem Teile des Stacks 
auf den externen Speicher ausgelagert warden. 

68. Verfahren zur Programinierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daft 
die Ubergeordneten Ladeeinheiten hierarchisch aufgebaut sind. 

69. Verfahren nach Anspruch 68 dadurch gekennzeichnet, daB 
auf jeder Hierarchieebene unterschiedliche Teile des 

Konf igurationsprogrammes gespeichert und/oder abgearbeitet 
warden.. 

70. Verfahren zur Programmierung von Bausteinen mit ein- oder 
^ mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 

die Ubergeordneten Ladeeinheiten breite Speicher zur schnellen 
t)bertragung der Konf igurationsdaten aufweisen. 

71. Verfahren zur Programioierung von Bausteinen mit ein- oder 
mehrdimensionalier Zellstruktur, dadurch gekennzeichet, daB 
die Speicherbreite fur die Sequenzer Ubergeordneten 
Ladeeinheiten Uber Multiplexer verringert wird. 
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72. Verfahren zur Programmierung von Bausteinen mit ein- oder 
' mehrdimensionaler ZelistruktuiTf dadurch gekenhzeichet, dafi 

die Ubergeordneten Ladeeinheiten einen Befehl zum bloc)cweisen 
Ubertragen der Konf igurationsdaten atxfweisen. 

73. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
der Befehl zum blockweisen Ubertragen der Kohfigurationsdaten 
nach. dem DMA- Prinzip implementiert ist. 

74. Verfahren nach Anspruch 72 dadurch gekennzeichnet/ dafi 
auf den Speicher fUr die Konfigurationsdaten gleichzeltig und 
unabhangig vom restlichen Speicher zugegriffen wird. 

75. Verfahren nach Anspruch 72 dadurch gekennzeichnet^ dafi 
mehrere Einhelten zum blockweisen Ubertragen der 
Konfigurationsdaten existieren. 

76. Verfahren nach Anspruch 72 und 75 dadurch gekennzeichnet, 
dafi 

gleichzeltig unabhangige Zugrif fe auf die. Speicher fiir die 
Konfigurationsdaten der eihzelnen Einheiten erfolgen. . 

. 77. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi • 
der Befehl beim konf igurieren einer nicht konfigurierbaren 
Zelle abbricht. 

78. Verfahren nach Anspruch 72 und 77 dadurch gekehnzeichnet/ 
dafi 

der Befehl die Adresse der Konfigurationsdaten der nicht 
konfigurierbaren Zelle speichert. 

79. Verfahren nach Anspruch 72 und 77 bis 78 dadurch 
gekennzeichnet, dafi 
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der Befehl bei einer erneuteh Ausfiihrung an der Stelie der 
Kbnf igurationsdateri def ;nicht konf igiirierten . Zelle . . 
weiterarbeitet. 

80. Verfahren hach Anspruch 72 und 77 bis 79 dadurch 
gekennzeichnet, dafi 

der Befehl nur dann erneut ausgefuhft wird/ wenn eihe Zelle 
nicht konfiguriert werden konnte, 

81. Verfahren zur Progranimierung von Bausteinen mit e in- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ubergeordneten Ladeeinheiten Konf igurationen in ihre 
internen Speicher laden, bevor diese abgerufen werden. 

82. Verfahren nach Anspruch 81 dadurch gekennzeichnet, dafi 
das Laden durch einen Befehl ausgeflihrt wird. 

83. Verfahren nach Anspruch 81 dadurch gekennzeichnet, daB 
das Laden durch ein Statussignal angestofien wird. 

84. Verfahren zur Prograxnmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
Konf igurationen zu Gruppen zusammengefaBt . werden. . > 

85. Verfahren nach Anspruch 84 dadurch gekennzeichnet/ dafi 
eine Gruppe durch ihren Aufruf verSndert personal isiert wird. 

86-. Verfahren nach Anspruch 84 bis 85 dadurch gekennzeichnet, 
daB 

die Gruppen und deren Personalisierung auf Ubergeordneten 
Ladeeinheiten niederer Hierarchie gespeichert werden. 
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87. Verfahren nach Ahspruch 84 bis 86 dadurch gek^nnzeichnet, 
dafi- . . • ■; V- ' / ' 
die Aufrufe der Gruppen auf Ubergeordneten Ladeeinheiten 
hbherer Hierarchic gespeichert werden. 

88, Verfahren nach Anspruch 84 bis .87 dadurch gekennzeichnet, 
daB • ■ / ■ 

Programme aus einer Mehrzahl derartiger Aufrufe bestehen. 

89.. Verfahren . zixr Prograihmi er uhg von Bausteineh mit ein- odef 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
Konf igurationen und Bef ehlssequenzen von Sequenzern in den 
ubergeordneten Ladeeineiten gespeichert werden. 

90. Verfahren zur Programmierung von Bausteinen mit ein-- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
Befehlssequenzen von Sequenzern in den internen und/oder 
externen Speichern enthalten sind. 

91. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
zWischen den internen Zustanden der Sequenzer und den 
Zustanden der Datenverarbeitung unterschieden wird. 

92. Verfahren nach Anspruch 91 dadurch gekennzeichnet, dafl 
die Zustande der Datenverarbeitung mit den Da ten in der 
Zellstruktur mitgefUhrt werden. 

93. Verfahren nach Anspruch 91 bis 92 dadurch gekennzeichnet, 
daB 

die Zustande der Datenverarbeitung mit den Daten gesichert 
werden. 
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94. Verfahrien nach AnSpruch 91 bis 93 dadurch gekenhzeichnet, 
:•• dafl- .;. ' • y • :.• ./ • v- 

die Zustande der Datenverarbeitung mit jedem gespeicherten 
Datenwort gesichert werden. 

95. Verfahren nach Anspruch 91 bis 93 dadurch gekennzeichnet^ 
dafi ' ' 

die Zustande der Datenverarbeitung. mit dem letzten 
gespeicherten Datenwort vor einer Umkonf iguratidn gesichert 
werden- 

96. Verfahren zur Programmierung yon Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
die Adresse des/der zuletzt bearbeiteten Operanden vor einer 
Umkonfiguration gesichert wird. 

97. Verfahren nach Anspruch 96 dadurch gekennzeichnet, daB 
die Zustande der Datenverarbeitung des letzte Operanden vor 
einer Umkonfiguration gesichert werden. 

98. Verfahren nach Anspruch 91 dadurch gekennzeichnet, dafi 
die internen Zustande der Se^enzer nicht gesichert werden. 

99. Verfahren zum Compilieren von Programmen fUr Bausteine mit 
ein- Oder mehrdimensionaler Zellstruktur, dadurch 
gekennzeichet, daB 

vier Arten von Kode unterschieden werden: 
- a) Paralleler Code 

b) Ef f izient parallelisierbarer Code 

c) Nicht effizient parallelisierbarer Code 

d) Sequentieller Code 
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10b. Verfahren nach Anspruch 99 dadurch gekennzeichziet/ daB 
det parallels Code voni extrahiert wird. 

101. Verfahren nach Anspruch 99 bis 100 dadurch 
gekennzeichnet/ dafi 

der extrahierte Cpde plaziert und geroutet -wird* 

102. Verfahren nach Anspruch 99 bis 101 dadurch 
gekennzeichnet/ dafi 

die Partitionierung iterativ mit Plazierung. und. Routing 
durchgefUhrt wird. 

103. Verfahren nach Anspruch 99 dadurch gekennzeichnet, dafi 
der parallelisierbare Code extrahiert wird. 

104. Verfahren nach Anspruch 99 und 103 dadurch 
gekennzeichnet/ dafi 

der extrahierte Code plaziert und geroutet wird. 

105. Verfahren nach Anspruch 99 und 103 bis 104 dadurch 
gekennzeichnet/ dafi 

die Partitionierung iterativ iait Plazierung und Routing 
durchgefUhrt wird. . 

106. Verfahren nach Anspruch 99 und 103 bis 105 dadurch 
gekennzeichnet/ dafi 

jeder Code, auf seine Effizienz hin analysiert wird und die 
Codes separiert werden, die nicht effizient arbeiten. 

107. Verfahren nach Anspruch 99 und 103 bis 106 dadurch 
gekennzeichnet/ dafi 
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eine Statistik .erstellt wird, Welche. Codes effizient und 
welche inef fizient sind und . dem. Prograiaiiiierer entsprechende . 
Hinweise auf die effizientere Programmierung gegeben werden. 

108. Verfahren nach Anspruch 99 und 106 dadurch 
gekennzeichnet, daB 

der sequentielle und separierte Code ahalysiert wird und filr 
jeden einzelnen Code ein geeigneter Sequenzer gewahlt wird; 
wobei 

a) eine Menge yon mOglichen Sequenzern in einer batenbaiik 
vorgegeben werden 

b) gegebenenfalls nur ein Sequenzer zur VerfUgung steht 
(Prozessor) 

109. Verfahren nach Anspruch 108 dadurch gekennzeichnet, daB 
der Code fUr den entsprechenden gewahlten Sequenzer Ubersetzt 
wird. 

110. Verfahren nach Anspruch 108 und 109 dadurch 
gekennzeichnet, daB 

das Auswahlen eines Sequenzers und die Ubersetzung iterativ 
veriauft, indem jede Obersetzung auf ihre Effizienz hin 
analysiert wird und der Sequenzer gewShlt. wird, dessen . 
Ubersetzter Code ef f izienteste ist. 

111. Verfahren nach Anspruch 99 bis 111 dadurch 
gekennzeichnet, daB 

die Ubersetzten Codes und partitionierten Codes von einem 
Linker zusammengefaflt werden und die notwendige 
Kommunikationsstruktur eingefUgt wird. 

112. Verfahren nach Anspruch 111- dadurch gekennzeichnet, daB 
der Linker notwendige Speicher einfUgt. 
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113. Verfahren hach Anspriich 111 und 112^.^d^^ 
gekennzeichnet# da£ 

der Linker Strukturen zur Sicherung der internen Zustande der 
Zellstruktur einfiigt. 

114. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Oder mehrere Speicher direkt an die Zellstruktur 
arigeschlossen sind. . ^ 

115. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
auf den Speicher wortweise addressierbar zugegriffen wird. 

116. Verfahren nach Anspruch .114 dadurch gekennzeichnet, dafi 
der Speicher als Lookup-Tabelle arbeitet^ 

117. Verfahren nach Anspruch 114 dadurch gekennzeichnetr dafi 
der Speicher als Stack fiir einen Sequenzer arbeitet. 

118. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als. Registersatz fttr einen Sequenzer arbeitet. 

119. Verfahren nach Anspruch 114. bis 118 dadurch 
gekennzeichnet, dafi 

dem Speicher eine Schnittstelle zur Peripherie Oder externem 
Speicher zugeordnet oder integriert ist. 

120. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet I dafi 

der Speicher nach den FIFO-Prinzip arbeitet und somit 
DatenstrGme in der Zellstruktur von externen Datenstromen 
entkoppelt. 
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121. Verfahreri nach Ahspriich' 114; und 119 dadiirch 
gekennzeichnetr daB 

der Speicher als Cache zwischen der Z*ellstruktur und dem 
externen Speicher arbeitet. 

122, Verfahren nach Ahspruch 114 bis 121 dadurch 
gekennzeichnet, dafi 

der Speicher Code f Ur einen im Zellarray impiemeritierten 
Sequenzer speichert . 

122. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
mehrere Speicher auf einen gemeinsamen peripheren Bus 
zugreifen, 

123. Verfahren nach Anspruch 114 und 122 dadurch 
gekennzeichnet, daB 

ein Arbiter immer genau einen Speicher je gemeinsamen Bus 
auswahlt und diesen iiber einen Multiplexer auf den Bus 
aufschaltet. 

124. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
ein Statussignal das Sehreiben deis .Inhaltes des Speichers auf . 
den externen Speicher bewirkt. 

125. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
ein Statussignal das Lesen des Inhaltes des Speichers von dem 
externen Speicher bewirkt. 

126. Verfahren nach Anspruch 114 und 124 bis 125 dadurch 
gekennzeichnet, dali. 

die Basisadresse des externen Speichers in einem Register 
gespeichert ist. 
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127. Verfahren naeh Anspruch 114. und 124 bis i26 dadurch . 
gekeimzeichnet, daB 

das Register von der Zellstruktur gesetzt wird. 

128. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekenrizeichnet, dafi 

das Register von der ubergeordneten Ladeeinheit gesetzt wird. 

' 129. Vierfahren nach. Anspruch 114. und 124 bis 126 dadurch 
gekennzeichnet, dafi 

das Register von der Peripherie gesetzt wird. 

130. Verfahren nach Anspruch 117 dadurch gekennzeichnet, daB 
der Stack eine variable GrGBe aufweist, indem der externe 
Speicher zur VergrQfierung des Stacks verwendet wird. 

131. Verfahren nach Anspruch 117 und 130 dadurch 
gekennzeichnet/ daB 

vor einem StackUberlauf der aiteste Teil des Stacks auf den 
Stack im extefneh Speicher geschrieben wird. 

132. Verfahren nach Anspruch 117 und 130 dadurch . 
gekennzeichnet, dafi 

vor einem Stackunterlauf der jUngste Teil des Stacks von dem 
Stack im externen Speicher gelesen wird. 

133. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher durch Statussighale seinen Status, angibt. 

134. Verfahren nach Anspruch 114 und 121 dadurch 
gekennzeichnet, dafi 
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dem Speicher ein TAG-Speicher ftlr die Cache-Funktion 
• zugebrdnet ist. ' . ^ 

135. Verfahren nach Anspruch 114 undr 119 dadurch 
gekenhzeichnet, daB 

das Interface zur Peripherie mit der Schnittstelle zum 
Zellstruktur synchronisiert ist. 

136. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, daB 

dem Interface zur Peripherie eine Einheit zur Oberwachung der 
Adressen zugeordnet ist. 

137. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, daB 

dem Interface zur Peripherie eine Einheit zur Obersetzung der 
Adressen zugeordnet ist. 

138. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Ringspeicher aufgebaut ist. 

.139. Verfahren nach Anspruch 114 und 119 und 138 dadurch 
gekennzeichriet, daB 

die Zellstruktur und die Peripherie jeweils einen 
Positionszeiger besitzen. 

140. Verfahren nach Anspruch 114 und 138 dadurch 
. gekennzeichnet, dafi 

ein Register die Menge an Eintragen im Speicher angibt. 

141. Verfahren zuih Betrieb von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
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def istatiis einer Zelle an beliebige anderie Zellen 
weitergeleitet wird. 

142. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet/ dafl 
eine Zelle mehrere Konf igurationsregiscer besitzt. - 

143. Verfahren nach Anspruch 142 dadurch gekennzeichnet, dafi 
genau eines der Konf igurationsregister zur Lauf zeit ausgeWahlt 
-wird- 

144. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet^ daB 

die Auswahl durch ein Statussignal innerhalb der Zellstruktur 
erfolgt. 

145. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet/ dafi 

die Auswahl durch ein Statussignal der Zelle erfolgt. 

146. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet/ dafi 

die Auswahl durch ein Signal von der Ubergeordneten 
Ladeeinheit erfolgt. 

147. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Sequenzer in der Zelle integriert ist. 

148. Verfahren nach Anspruch 142 und 147 dadurch 
gekennzeichnet, da6 

ein in der Zelle implementierter Sequenzer das 
Konf igurationsregister auswahlt. 
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149: Verfahren riach Ahspruch 142 und 
gekennzeichnetr dafi 

der Sequenzer das Konfiguracionsworfals Befehl auswertet. 

150. Verfahren nach Anspruch 147.dadurch gekennzeichnet, dad. 
der Sequenzer auf Statussignale der Zellstruktur reagiert. 

151. Verfahren nach Anspruch 147 dadurch gekennzeichnet, dafi 
der . Sequenzer . auf Statussignale der Zelle reagiert. 

152. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
eine Zelle als Akkiuaulator-Prozessor arbeitet. 

153. Verfahren nach Anspruch 152 dadurch gekennzeichnet, dafl 
das ein Akkumulator in der Ze;lle integriert ist. 

154. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dad 
eine Zelie als Register-Prozessor arbeitet. 

155. Verfahren nach Anspruch. .154 dadurch gekennzeichnet, dafi 
das ein Registersatz in der. Zelle integriert ist. 

156. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Stack-Prozessor arbeitet. 

157. Verfahren nach Anspruch 156 dadurch gekennzeichnet, daB 
das der Stack in einem der Zellstruktur zugeordnetem Speicher 
integriert ist. 
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158. Verfahren zum Betrieb von Bausteihen mit ein- oder 
mehrdimensionaler Zellstruktur/. dadurch gekenhzeidhet, . dafi 
eine Gruppe von Zellen einen Akkumulator-Prozessor bilden. 

159. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
eine Gruppe von Zellen eihen Stack-Prbzessor bilden. 

160. Verfahren zum Betrieb yon Bausteinen. mit ein- oder 
mehrdimensionaler Zellstruktur/ da^^ daB 

r eine Gruppe von Zellen einen Register-Prozessor bilden. 

161. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Gruppe von Zellen einen Load/Store-Prozessor bilden. 

162. Verfahren nach Anspruch 158 bis 161. dadurch 
gekennzeichnet/ daB 

der Gruppe ein der Zellstruktur zugeordneter Speicher 
zugeordnet ist. 

163. Verfahren zum Betrieb von Bausteinen mit ein- oder. 

• mehrdimensionaler Zellstruktur,. dadurch gekennzeichet, dafl. . 
auf die Datenregister der Zellen von der ubergeordheten 
Ladeeinheit zugegriffen wird. . 

164. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
auf die Datenregister der Zellen von einem Ubergeordneten 
Prozessor zugegriffen wird. 

165. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
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auf die Datenregister der Zellen von einer anderen als 
. Prozessor Jcdnfigurierten Zelle zugegrif fen wird. 

166. Verfahren zxim Betrieb von Baust-einen mit ein- Oder 
mehrdimensionaler Zellstruktur , dadurch gekennzeichet, daB 
auf die Datenregister der Zellen von. anderen als Prozessor .. 
•kdnf igurierten Zellen zugegriffen wird. 

167.. Verfahren "zum Betrieb von Bausteirien 'mit eih- oder 
mehrdimehsidnaler Zeilstruktur, dadufch 'gekennzeichet, daJQ 
ein Registersatz in einer Zelle implementiert ist. 

168. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur^ dadurch gekennzeichet/ dafi 
die Eingangsregister der Zelle mit FIFOs versehen sind. 

169. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur^ dadurch gekennzeichet, dafi 
die Ausgangsregister der Zelle mit FIFOs versehen sind. 

170. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Zelle mit einem. der Zellstruktur .zugeordnetem Speicher . 
derart gekoppelt werderi kahn, dafi die Codes fUr den in der 
Zelle inclement ierten Sequenzer aus dem gekoppelten Speicher 
geladen werden. 

171. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
die Zelle mit dem Speicher einer ubergeordneten Ladeeinheit 
derart gekoppelt werden kann, dafl die Codes fUr den in der 
Zelle implementierten Sequenzer von dem Speicher der 
Ubergeordneten Ladeeinheit geladen werden. 
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